1 iPad可用AI绘画交互编辑神器火了,网友:颤抖吧PS
量子位|阅读原文
比PS更懂你的AI图片编辑工具——MagicQuill(魔法羽毛)——来自香港科技大学、蚂蚁集团、浙江大学和香港大学等机构的研究团队。
特点:1分钟出图-不用打字、简单勾画几笔就能编辑图片。支持直接在iPad上在线编辑!有了MagicQuill,现在当你想要给人物更换衣服时,1、可以直接画出领子,它会自动帮你补全;2、加条项链、去除路人,几秒钟就搞定。机器人、汽车、蛋糕等,都可以快速修改!
MagicQuill团队的目标是实现一个高效且精确的图像编辑系统,能够在用户进行细微修改时提供更好的使用体验。这不仅包括实现细粒度的图像编辑控制、还要提供直观的用户界面、并实时预测用户意图。最终团队选择基于扩散模型、文本和掩码的图像编辑方法、以及多模态大型语言模型(MLLMs) 进行实现,并设计了简约实用的用户界面。
2 收敛速度最高8倍,准确率提升超30%!华科发布MoE Jetpack框架 | NeurIPS 2024
新智元|阅读原文
混合专家模型(MoE, Mixture of Experts)是一种通过动态激活网络的部分结构来提升计算效率的架构,可以在保持相对稳定的计算成本的前提下大幅增加参数量,从而有效提升模型性能。这一特性使得MoE能够兼顾模型的规模与效率,已广泛应用于各种大规模任务。
MoE Jetpack框架的核心创新包括:
1. Checkpoint recycling:通过采样密集模型权重产生差异化的专家,组成MoE模型的初始化权重,从而加速模型收敛、提升性能,并避免大规模的MoE模型预训练。
2. SpheroMoE Layer:通过调整MoE结构,利用交叉注意力机制进行专家分配,将query和key投影到超球空间以提升微调过程的稳定性,并通过一系列专家正则化方法有效缓解MoE模型微调过程中的过拟合现象。实验结果表明,MoE Jetpack在多个数据集和网络结构上实现了显著的性能提升。在ImageNet-1K上,模型收敛速度提升2倍,准确率提高了2.8%;在小规模数据集上,收敛速度可达8倍提升,准确率提升超过30%。
3 实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍
机器之心|阅读原文
OpenAI 向各类付费用户开放了 GPT-4o 语音功能,并与苹果合作接入到了 Siri 中。谷歌先是允许所有安卓用户访问 Gemini Live 语音功能,并于近日支持 iOS 用户与该语音助手交流。如今,这个赛道又迎来了一个有实力的新玩家 —— 它就是昆仑万维开发的 Skyo 实时语音对话助手。
Skyo 基于背后的天工大模型 4.0 4o 版(Skywork 4o)打造。从名称上看,Skyo 中的「o」同样代表了 omni 的意思,并落在语音对话场景,直接对标了 GPT-4o。从定位和功能上看,作为一个智能语音互动产品,Skyo 具备了快速响应、实时打断、情感化反应、真实内容互动和个性化声音定制等多样化的功能。
可以说,用户想要在 AI 语音对话中体验的场景和功能,Skyo 基本上都能 hold。特点:实时对话 AI一要准、二要快;一手实测会念诗、还拿捏住了拟人化。
对此,你怎么看?
支付宝/钉钉扫码加入支付宝开发者钉组织,可了解支付宝开放能力最新动态,订阅文档更新消息,和同城同行业交流业务,与支付宝产研沟通交流。