无需开颅!瘫痪患者也能控制数字设备、分割一切模型开源、最强开源文生图模型问世 | AI视界周刊第 3 期

AI 视界周刊由战场小包维护,每周一更新,包含热点聚焦、应用破局、学术前沿、社区热议、智见交锋、跨界 AI、企业动态和争议 AI 八大板块,后续板块划分和内容撰写在周刊迭代过程中持续优化,欢迎大家提出建议。

欢迎大家来到《AI 视界周刊第 3 期》(07/29~08/04)。

✨ 热点聚焦

Meta「Segment Anything」2.0 开源,视频分割能力惊艳

Meta 公司开源了其最新计算机视觉模型 Segment Anything Model 2(SAM 2),这标志着视频分割技术的重大进步。SAM 2 不仅能在图像上实现实时对象分割,还能处理视频内容,提供快速而准确的分割效果。该模型具有许多亮点,如实时对象分割、准确性和性能优、零样本泛化能力强等,但在一些场景中仍有提升空间,如在剧烈视角变化、拥挤场景等。SAM 2 的推出预计将加速视觉数据标注过程,并有助于构建更先进的计算机视觉系统,同时在多个领域如 XR 混合现实、自动驾驶、视频编辑等有广泛的应用前景。更多详情

无需开颅!瘫痪患者也能控制数字设备了

Synchron 公司通过微创手术将脑机接口(BCI)植入患者大脑,无需开颅。集成 OpenAI 的 ChatGPT 后,使得瘫痪患者通过思考即可控制数字设备,大幅提高沟通效率。ChatGPT 根据上下文智能预测回答选项,用户可通过 BCI 选择,减少输入工作量。系统还具备多模态输入和适应性学习,能逐渐适应用户偏好,提升个性化体验。Synchron 的 BCI 预计成本与心脏起搏器相当,有望成为首个获得 FDA 批准的植入式 BCI 设备。更多详情

斯坦福团队打造自主手术机器人

斯坦福炒虾团队让达芬奇机器人通过模仿学习学会了自主完成外科手术任务,包括缝合打结、针的拾取和组织提起等。这项研究通过模仿学习,克服了达芬奇系统在精确操纵和感知上的挑战,实现了自主手术操作。研究团队采用了大规模临床数据存储库和相对动作公式,通过 Transformer 架构的模型,训练机器人仅使用图像输入来输出相对姿态轨迹。实验结果表明,达芬奇机器人不仅在模仿学习中表现出色,还能在新场景中实现零样本泛化,展现了未来在临床研究和手术中的广阔应用前景。更多详情 论文链接

最强开源文生图模型 FLUX.1 问世

由 Stable Diffusion 模型主要作者 Robin Rombach 创立的 Black Forest Labs 公司宣布推出 FLUX.1 系列图像生成模型,包括专业版、开发者版和快速版三个版本,均在性能上超越了 Midjourney v6.0、DALL・E 3 等现有主流模型。模型采用多模态和并行扩散 Transformer 混合架构,具备丰富的图像细节和强 prompt 遵循能力。更多详情

音乐届的孔乙己 – Suno 公司回应使用版权音乐训练 AI 模型的诉讼

音乐 AI 公司 Suno 承认在训练其 AI 模型时使用了来自三大唱片公司(环球音乐集团、索尼音乐公司和华纳音乐公司)的版权音乐,但该公司认为这一行为属于美国版权法中的合理使用原则,因此认定此类活动属于合理使用。Suno 首席执行官米奇·舒尔曼比喻称,使用开放互联网上的数据训练 AI 模型,与孩子们听摇滚乐后创作歌曲无异,强调学习过程本身并不构成侵权。更多详情

📲 应用破局

Soul App 团队在多模态情感识别挑战赛中夺冠

第二届多模态情感识别挑战赛(MER24)近日落幕,Soul App 的语音技术团队在 Semi 赛道中获得第一名。Soul 团队通过改进半监督学习技术、多模态特征提取和融合,提出了创新技术方案,提升了情感识别的准确率。更多详情

MenteeBot 人形机器人展现购物陪伴新技能

人形机器人公司 Mentee Robotics 的 MenteeBot 展示了陪人购物等新能力,尤其为行动不便人士提供服务。这款机器人能理解指令,与人类互动自然精确,具备出色的 3D 视觉、感知和决策能力,可以实现购物车的推动,并以自然的步态跟随用户,同时巧妙地避开障碍和即时响应用户动作。更多详情

Kimi AI 推出一键生成 PPT 功能,助力提升工作效率

Kimi AI 与 AiPPT 合作推出了一项新功能,用户可以通过简单的指令或上传文档,一键生成 PPT 演示文稿。用户可以选择一键转换现有文档为 PPT,或输入指令生成包含特定大纲的 PPT。虽然生成的 PPT 框架需要用户进一步添加细节和图片,但这项功能一定程度上可以简化 PPT 的制作过程,提高工作效率。更多详情

秒杀 ChatGPT 和 Perplexity,国产 AI 搜索引擎 MindSearch

国产 AI 搜索引擎 MindSearch 借助多智能体框架在深度、广度和准确度方面超越了 Perplexity.ai 等竞争对手,其通过模拟人的思维过程,采用 WebPlanner 和 WebSearcher 智能体,快速收集并整合互联网信息,能在不到 3 分钟的时间内完成人类专家需要 3 小时的工作。更多详情

谷歌 DeepMind 发布 Gemma 2 2B 小模型,性能超越大型模型

谷歌 DeepMind 推出了 Gemma 2 2B 小模型,一个参数仅 2.6B 的 AI 模型,其性能在 LMSYS 竞技场上超越了参数量更大的 GPT-3.5 和 Mixtral 8x7B。Gemma 2 2B 从 27B 的 Gemma 2 中蒸馏而来,不仅性能出色,还实现了端侧部署的高效性。更多详情

文生图领域迎来诸多突破

  1. Runway Gen 3 Alpha 图生视频功能上线,11 秒视频激发无限想象

Runway Gen 3 Alpha 模型的图生视频功能正式推出,用户可以上传图片并利用文本提示生成最长 11 秒的视频。这一重大更新提升了视频生成的艺术控制和一致性,受到网友的广泛赞誉。更多详情

  1. 生数科技推出 Vidu,30 秒生成 4 秒视频的 AI 视频工具

清华朱军创业团队生数科技推出的 Vidu 正式上线,支持文生视频和图生视频,生成效率高,仅需 30 秒即可生成一段 4 秒视频,大大缩短了用户等待时间,且能准确理解语义和提示词。且在保持高动态性、逼真度和一致性的同时,新增了动漫风格、文字与特效生成等特色功能。体验链接 更多详情

  1. Midjourney v6.1 版本发布,图像生成质量显著提升

Midjourney v6.1 版本上线,该版本在人像、物体和场景生成方面实现了八大升级,实现了更强的一致性、更高的图像质量、更快的生成速度等,使得生成的图像在细节和真实性上更接近摄影作品。更多详情

  1. Stability AI 发布"Stable Fast 3D"模型,0.5 秒生成 3D 模型

Stability AI 推出了一款名为"Stable Fast 3D"的 AI 模型,该模型能够通过单张图片在 0.5 秒内快速生成高质量、自然且完整的 3D 模型。模型自带材质和参数,支持精确的 UV 展开,便于用户进行后期修改。此外,用户还可以选择四边形或三角形网格重建功能,以更细致地控制模型网格拓扑结构。Stable Fast 3D 在生成模型时,能够减少原图中主体受光照影响,确保模型在不同光照环境下颜色准确。与之前的 SV3D 模型相比,Stable Fast 3D 在保持精度的同时,将单个模型推理时间从 10 分钟大幅缩短至 0.5 秒,大幅提升了效率。更多详情

⏳ 社区热议

AI 热潮引发技术泡沫担忧

有人认为当前 AI 热潮可能是人类史上最大泡沫,高盛分析师指出,当下 AI 技术备受瞩目,但其对美国生产力和 GDP 的增长贡献非常有限。OpenAI 的 ChatGPT 虽广受欢迎,但缺乏突破性创新成果。技术发展需与市场需求结合,产业化是技术成功的关键。中国企业如腾讯和理想汽车,通过产品创新和市场需求驱动,实现了技术进步和产业化,为后发追赶者提供了成功路径。更多详情

GPT-4o mini 登顶大模型竞技场引发争议

GPT-4o mini 与 GPT-4o 并列第一,引发 lmsys 竞技场争议,网友质疑该成绩的真实性,认为 lmsys 可能被 OpenAI 收买。官方对此提供了详细的数据回应,表明 GPT-4o mini 胜出的关键在于:拒绝回答次数少、回答更详细、格式清晰。例如,面对一些问题时,它比 Claude 3.5 Sonnet 提供的回答更丰富,但其在数学任务上表现较差。竞技场中大部分问题的回答中日拒答,格式等因素对评分影响大,引发了对大模型拒答问题的关注,及对大模型评分标准的讨论。更多详情

🎏 智见交锋

扎克伯格与黄仁勋对话:探讨生成式 AI 未来

在第 51 届 SIGGRAPH 计算机图形学会议上,Meta CEO 马克·扎克伯格与英伟达 CEO 黄仁勋进行了深入对话,讨论了生成式 AI 技术的前景及其在社交媒体、推荐系统和企业中的应用。核心论点主要如下: Llama 3 到 Llama 4 的升级,AI 助手的应用, Meta 的开源理念,智能眼镜、VR/MR 头显等领域的布局等。更多详情

智能体(Agent)与 Chatbot 的区别及未来探讨

在 AI 领域,智能体(Agent)正成为热门话题,被看作是大模型未来入口的潜力股。然而,许多人对 Agent 与 Chatbot 的区别和 Agent 的技术发展不甚了解。DeepWisdom CEO 吴承霖和腾讯 Agent 技术负责人陈浩蓝深入探讨了 Agent 的定义、技术挑战、数据合成等问题。他们指出,Agent 不一定要模拟人类行为,可以是大型语言模型的辅助工具;与 Chatbot 相比,Agent 更复杂且不仅限于对话交互。同时,讨论还涉及了合成数据训练 Agent 的高成本问题,以及具身机器人领域的商业化挑战。更多详情

AI 开源生态专家探讨 AI 技术发展与产业趋势

在「智者访谈」中,AI 开源生态专家黄之鹏先生深入分析了 AI 开源的现状与未来。他指出,尽管 OpenAI 从开源走向封闭,但随着开放权重大模型的崛起,开源 AI 可能成为行业标准。黄之鹏还讨论了 AI 技术栈和基础设施的变化,强调了多模态、动态图支持、可解释性等趋势,同时指出中美在 AI 开源生态上的差异及中国的发展潜力。他认为,数据的丰富性和多样性是中国 AI 开源生态繁荣的基础,而产业协同是未来发展的关键。更多详情

大模型尺寸或重走 CNN 老路,追求更小更高效

贾扬清提出,当前 AI 大模型尺寸的发展可能正重走 CNN 的老路,即从追求规模快速增长转向更小、更高效的模型。他指出,尽管业界普遍认同 Scaling Law 并不断推出参数庞大的模型,但 7B-70B 参数规模的大模型在实际应用中更为顺手,易于托管且能提供质量上乘的输出。同时,他预测行业将因小型垂直模型而真正蓬勃发展,例如 Patrouns AI 的 Iynx 等中小模型。更多详情

🎯 争议 AI

X(推特)因使用用户数据训练 xAI 遭监管质询

欧洲数据保护监管机构正在对 X(推特)的一项决定进行审查,该决定允许用户数据自动输入埃隆·马斯克的人工智能初创公司 xAI,用于训练和微调 xAI 系统。用户在未获得明确同意的情况下被自动选择参与数据共享,且目前只能在桌面版本中设置拒绝。爱尔兰数据保护委员会已就此问题与 X 交涉数月,并在上周五进一步提出质询。更多详情

Meta AI 安全模型存在漏洞,空格键可绕过检测

Robust Intelligence 的安全研究人员发现,通过在字母间添加空格和省略标点符号,用户可以轻易绕过 Meta 的 AI 安全系统。该方法使得原本不到 3% 的攻击成功率飙升至接近 100%,严重威胁了 AI 模型的安全性。更多详情

Claude 团队因爬虫行为引众怒

AI 公司 Anthropic 的 Claude 团队被指在 24 小时内访问 iFixit 服务器 100 万次,抓取网站内容,无视其“禁止爬取”声明。尽管 iFixit 尽力防御并修改了 robots.txt 文件,ClaudeBot 仍成功抓取了大量数据。这并非 Anthropic 首次违规,其官网声称爬取应不具侵入性或破坏性,但实际行为与声明不符,引发了业界对 AI 公司爬虫行为的广泛批评。更多详情

🛶 跨界 AI

AI 面部识别技术可检测慢性病

北大研究团队开发出一种 AI 技术,通过热成像仪扫描面部,能够检测高血压、糖尿病和脂肪肝等慢性病。这项技术不仅能预测衰老状况和健康状况,未来还可能用于心血管类疾病的检测。更多详情

量子计算在药物设计领域取得重要突破

医图生科与腾讯量子实验室等机构合作,发布了题为《一个面向真实世界药物发现的混合架构量子计算框架》的论文,标志着量子计算在药物设计领域的应用取得重要进展。研究团队构建了经典与量子计算相结合的框架,成功应用于临床前动物实验和经过临床验证的药物设计环节,展现了量子计算机在药物设计中的巨大潜力和商业价值。更多详情

AI 机器人牙医完成世界首例牙科手术

波士顿 Perceptive 公司开发的 AI 机器人成功执行了全球首例人类临床牙科手术,其诊疗速度达到人类医生的 8 倍。该机器人配备了 OCT 3D 成像系统,能生成高精度牙齿内部 3D 图像,显著提高诊疗准确性。Perceptive 的机器人牙医在手术中展现出高度安全性,即使患者头部移动也能安全处理。这一创新技术有望简化牙科程序,提高患者舒适度,未来可能极大改变牙科行业,使诊疗更高效、更精准。更多详情

🎮 企业动态

英特尔裁员 1.5 万人以扭转业务局面

英特尔宣布将裁减约 1.5 万名员工,占其总员工数的 15%,作为其成本削减计划的一部分,以期在 2025 年节省 100 亿美元。CEO 帕特·基辛格表示,公司需要降低成本、简化运营并提高效率,以更好地与竞争对手如英伟达和 AMD 竞争。更多详情

Vanta 完成 1.5 亿美元 C 轮融资,用 AI 推动企业合规革新

信任管理平台公司 Vanta 获红杉资本领投的 1.5 亿美元 C 轮融资,估值达 24.5 亿美元。该公司致力于用 AI 重塑企业合规行业,提供 AI 驱动的供应商安全评估等服务,简化安全和合规流程。更多详情

传 xAI 拟收购 Character.AI,AI 领域并购升温

埃隆·马斯克领导的人工智能公司 xAI 正与聊天机器人企业 Character.AI 就收购进行积极谈判。此次收购若成功,xAI 将获得 Character.AI 在 AI 对话领域的核心技术和专利,预计进一步巩固 xAI 在 AI 市场的领导地位,并推动对话式 AI 技术的广泛应用和商业化。更多详情

Meta 训练 Llama 3 遇频繁故障,GPU 成主要瓶颈

Meta 用于训练 Llama 3 的 16384 个英伟达 H100 显卡集群在 54 天内出现 419 次意外故障,平均每 3 小时一次,主要由显卡或 HBM3 内存故障导致。随着模型参数量增加,计算资源需求扩大,如 xAI 计划中的 10 万块 H100 显卡集群,故障率可能成倍增长,给 AI 训练带来更大挑战。更多详情

微软全球蓝屏事件导致 391 亿损失

微软全球蓝屏事件仍有 25 万台设备未完全恢复,该事件导致 850 万台设备崩溃,估计造成 391.8 亿人民币的经济损失。据微软发布调查报告称, Crowdstrike 的驱动程序 csagent.sys 对内存越界读取是造成本次蓝屏的主要原因。更多详情

📑 学术前沿

阿里推出 Tora,革新视频生成技术

阿里研究者提出面向轨迹的 DiT 架构 Tora,这是首个面向轨迹的 Diffusion Transformer(DiT)架构。Tora 能够根据文本、视觉和轨迹条件同时生成视频,实现了对视频内容的精确控制,包括持续时间、宽高比和分辨率。实验证明,Tora 在生成高运动保真度和模拟物理世界运动方面表现出色,其生成的视频流畅度高,物体变形少,保真度更佳。论文链接

ProcessPainter:可还原绘画过程的模型

新加坡国立大学等机构的研究者们发布了 ProcessPainter,能够根据一张图片还原整个绘画过程。ProcessPainter 通过在合成数据和人类画师绘画视频上训练时序模型,让扩散模型生成绘画过程,其核心技术包括时序注意力机制、艺术品复制网络以及合成数据集与训练策略。该模型能生成不同风格的绘画序列,学习特定画师风格,还能逆向解构艺术品或补全未完成画作,为艺术教育提供新工具,开辟 AIGC 新赛道。更多详情 论文链接

GALA3D:LLMs 引导的 3D 场景生成与编辑框架

北京大学王选计算机研究所 VDIG 团队提出 GALA3D 框架,用于复杂组合 3D 场景生成。该框架利用 LLMs 生成初始布局,通过布局引导的生成式 3D 高斯表示构建场景,并进行自适应几何控制优化。与现有方法相比,GALA3D 在生成质量、一致性等方面表现优异,能生成高质量、多物体交互的 3D 场景,并支持对话式可控编辑。论文链接

谷歌 DeepMind 发布自动评估模型 FLAMe

谷歌 DeepMind 推出 LLM 自动评估模型 FLAMe,可解决大语言模型评估难题。该模型数据收集规范,使用许可数据集并标准化人类评估结果,训练出通用和特定下游应用的自动评分器。在评估实验中,FLAMe 表现优异,准确率赶超 GPT - 4o,且偏见较小。未来计划扩大数据收集范围,增加多语言和长上下文训练,并探索其他训练方法。更多详情

SELF - GUIDE 方法提升 LLM 特定任务能力

卡内基梅隆大学和清华大学的研究团队提出 SELF - GUIDE 方法,让 LLM 自身生成任务特定的数据集并微调,以提升特定任务能力,无需依赖大量外部数据或强大的 Teacher Model。该方法通过多阶段生成和过滤机制,仅需要少量样例输入,就能生成高质量的合成数据,减少对大量外部数据或强大的 Teacher Model 的依赖。实验结果显示,在分类和生成任务上,SELF-GUIDE 方法分别实现了 14.5%和 17.9%的性能提升,证明了自我生成数据在适应 LLM 到特定任务中的潜力。论文链接 更多详情

港大 MIT 联合推出大模型规划 Citywalk

香港大学与麻省理工学院联合开发了一款名为 ITINERA 的 AI 系统,该系统结合了大型语言模型(LLM)和空间优化技术,提供个性化的开放域城市行程规划服务。用户只需输入需求,ITINERA 便能迅速生成合理的 Citywalk 路线,并提供相关介绍。系统支持实时更新兴趣点(POI)和热门活动,考虑用户个性化需求,并确保路线的空间连贯性。论文链接 更多详情

GenAI 对创意写作的影响:个人与集体的差异

最新研究显示,生成式人工智能(GenAI)能够激发个人在文学创作中的创意,但同时也可能导致集体创作的同质化。实验发现,AI 辅助创作的故事在新颖性和实用性上有所提升,但故事间的相似度也更高。这表明,虽然 AI 可以作为创意“跳板”,但过度依赖可能限制思维发散,减少集体创作中的多样性。论文链接

斯坦福 AI 方法加速新材料发现

斯坦福大学和 SLAC 国家加速器实验室的科学家开发出 AI 方法,能更有效地收集数据以发现新材料。该方法通过用户定义过滤算法转换为智能数据采集策略,比现有技术效率更高,为“自动驾驶实验”奠定基础。论文链接

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值