无需开颅!瘫痪患者也能控制数字设备、分割一切模型开源、最强开源文生图模型问世 | AI视界周刊第 3 期

AI 视界周刊由战场小包维护,每周一更新,包含热点聚焦、应用破局、学术前沿、社区热议、智见交锋、跨界 AI、企业动态和争议 AI 八大板块,后续板块划分和内容撰写在周刊迭代过程中持续优化,欢迎大家提出建议。

欢迎大家来到《AI 视界周刊第 3 期》(07/29~08/04)。

✨ 热点聚焦

Meta「Segment Anything」2.0 开源,视频分割能力惊艳

Meta 公司开源了其最新计算机视觉模型 Segment Anything Model 2(SAM 2),这标志着视频分割技术的重大进步。SAM 2 不仅能在图像上实现实时对象分割,还能处理视频内容,提供快速而准确的分割效果。该模型具有许多亮点,如实时对象分割、准确性和性能优、零样本泛化能力强等,但在一些场景中仍有提升空间,如在剧烈视角变化、拥挤场景等。SAM 2 的推出预计将加速视觉数据标注过程,并有助于构建更先进的计算机视觉系统,同时在多个领域如 XR 混合现实、自动驾驶、视频编辑等有广泛的应用前景。更多详情

无需开颅!瘫痪患者也能控制数字设备了

Synchron 公司通过微创手术将脑机接口(BCI)植入患者大脑,无需开颅。集成 OpenAI 的 ChatGPT 后,使得瘫痪患者通过思考即可控制数字设备,大幅提高沟通效率。ChatGPT 根据上下文智能预测回答选项,用户可通过 BCI 选择,减少输入工作量。系统还具备多模态输入和适应性学习,能逐渐适应用户偏好,提升个性化体验。Synchron 的 BCI 预计成本与心脏起搏器相当,有望成为首个获得 FDA 批准的植入式 BCI 设备。更多详情

斯坦福团队打造自主手术机器人

斯坦福炒虾团队让达芬奇机器人通过模仿学习学会了自主完成外科手术任务,包括缝合打结、针的拾取和组织提起等。这项研究通过模仿学习,克服了达芬奇系统在精确操纵和感知上的挑战,实现了自主手术操作。研究团队采用了大规模临床数据存储库和相对动作公式,通过 Transformer 架构的模型,训练机器人仅使用图像输入来输出相对姿态轨迹。实验结果表明,达芬奇机器人不仅在模仿学习中表现出色,还能在新场景中实现零样本泛化,展现了未来在临床研究和手术中的广阔应用前景。更多详情 论文链接

最强开源文生图模型 FLUX.1 问世

由 Stable Diffusion 模型主要作者 Robin Rombach 创立的 Black Forest Labs 公司宣布推出 FLUX.1 系列图像生成模型,包括专业版、开发者版和快速版三个版本,均在性能上超越了 Midjourney v6.0、DALL・E 3 等现有主流模型。模型采用多模态和并行扩散 Transformer 混合架构,具备丰富的图像细节和强 prompt 遵循能力。更多详情

音乐届的孔乙己 – Suno 公司回应使用版权音乐训练 AI 模型的诉讼

音乐 AI 公司 Suno 承认在训练其 AI 模型时使用了来自三大唱片公司(环球音乐集团、索尼音乐公司和华纳音乐公司)的版权音乐,但该公司认为这一行为属于美国版权法中的合理使用原则,因此认定此类活动属于合理使用。Suno 首席执行官米奇·舒尔曼比喻称,使用开放互联网上的数据训练 AI 模型,与孩子们听摇滚乐后创作歌曲无异,强调学习过程本身并不构成侵权。更多详情

📲 应用破局

Soul App 团队在多模态情感识别挑战赛中夺冠

第二届多模态情感识别挑战赛(MER24)近日落幕,Soul App 的语音技术团队在 Semi 赛道中获得第一名。Soul 团队通过改进半监督学习技术、多模态特征提取和融合,提出了创新技术方案,提升了情感识别的准确率。更多详情

MenteeBot 人形机器人展现购物陪伴新技能

人形机器人公司 Mentee Robotics 的 MenteeBot 展示了陪人购物等新能力,尤其为行动不便人士提供服务。这款机器人能理解指令,与人类互动自然精确,具备出色的 3D 视觉、感知和决策能力,可以实现购物车的推动,并以自然的步态跟随用户

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值