大模型日报 3月9日 — 3月10日_diffusion models for reinforcement learning: a sur-CSDN博客

本文链接：https://blog.csdn.net/LLM_SPACE/article/details/136629861

资讯

研究

谷歌具身智能新研究：比RT-2优秀的RT-H来了

https://mp.weixin.qq.com/s/IfelcGF-vgrlLIUWZMIUwA

随着 GPT-4 等大型语言模型与机器人研究的结合愈发紧密，人工智能正在越来越多地走向现实世界，因此具身智能相关的研究也正受到越来越多的关注。在众多研究项目中，谷歌的「RT」系列机器人始终走在前沿。如今，这个机器人又进化了。最新版的 RT 机器人名叫「RT-H」，它能通过将复杂任务分解成简单的语言指令，再将这些指令转化为机器人行动，来提高任务执行的准确性和学习效率。举例来说，给定一项任务，如「盖上开心果罐的盖子」和场景图像，RT-H 会利用视觉语言模型（VLM）预测语言动作（motion），如「向前移动手臂」和「向右旋转手臂」，然后根据这些语言动作，预测机器人的行动（action）。

扩散模型如何构建新一代决策智能体？超越自回归，同时生成长序列规划轨迹

https://mp.weixin.qq.com/s/b6D-vipDxKtlyocbxTObVQ

设想一下，当你站在房间内，准备向门口走去，你是通过自回归的方式逐步规划路径吗？实际上，你的路径是一次性整体生成的。近期的研究表明，采用扩散模型的规划模块能够同时生成长序列的轨迹规划，这更加符合人类的决策模式。此外，扩散模型在策略表征和数据合成方面也能为现有的决策智能算法提供更优的选择。来自上海交通大学的团队撰写的综述论文 《Diffusion Models for Reinforcement Learning: A Survey》 梳理了扩散模型在强化学习相关领域的应用。综述指出现有强化学习算法面临长序列规划误差累积、策略表达能力受限、交互数据不足等挑战，而扩散模型已经展现出解决强化学习问题中的优势，并为应对上述长期以来的挑战带来新的思路。

大模型在复杂推理任务上潜力如何？多智能体互动框架ThinkThrice玩转剧本杀

https://mp.weixin.qq.com/s/NI4VuyKSQ7fZ98aMMIEtbg

剧本杀是一种广受欢迎的多角色扮演侦探游戏，要求玩家扮演不同的角色。通过阅读角色文本、理解各自的故事、搜集线索、以及逻辑推理，玩家们共同努力揭开谜团。游戏角色通常被分为平民和凶手两大类：平民的目标是找出隐藏在他们中间的凶手，而凶手则尽力隐藏自己的身份，避免被发现。那么，如果让 AI 加入游戏，会产生怎样的新变化呢？加拿大蒙特利尔大学和 Mila 研究所的研究团队带来了一项令人兴奋的新研究，将 AI 的潜力引入到剧本杀游戏中。这项研究不仅展现了大型语言模型（LLM）在复杂叙事环境中的应用潜力，而且为 AI 智能体的推理能力评估设定了新的试验场。让我们一起深入了解这项研究的细节和其带来的启发。

基于DiT，支持4K图像生成，华为诺亚0.6B文生图模型PixArt-Σ来了

https://mp.weixin.qq.com/s/JcfVi0P4Db37McsfE6eXdg

众所周知，开发顶级的文生图（T2I）模型需要大量资源，因此资源有限的个人研究者基本都不可能承担得起，这也成为了 AIGC社区创新的一大阻碍。同时随着时间的推移，AIGC 社区又能获得持续更新的、更高质量的数据集和更先进的算法。于是关键的问题来了：我们能以怎样的方式将这些新元素高效地整合进现有模型，依托有限的资源让模型变得更强大？为了探索这个问题，华为诺亚方舟实验室等研究机构的一个研究团队提出一种新的训练方法：由弱到强式训练（weak-to-strong training）。他们的研究基于他们去年十月提出的一种高效的文生图训练方法 PixArt-α，PixArt-α 是 DiT（扩散 Transformer）框架的一种早期尝试。而现在，随着 Sora 登上热搜以及 Stable Diffusion 层出不穷的应用，DiT 架构的有效性得到了研究社区越来越多工作的验证，例如 PixArt, Dit-3D, GenTron 等。该团队使用 PixArt-α 的预训练基础模型，通过整合高级元素以促进其持续提升，最终得到了一个更加强大的模型 PixArt-Σ。

用AI短视频「反哺」长视频理解，腾讯MovieLLM框架瞄准电影级连续帧生成

https://mp.weixin.qq.com/s/-FVYtoT_igQ0zdhqPn2V5g

在视频理解这一领域，尽管多模态模型在短视频分析上取得了突破性进展，展现出了较强的理解能力，但当它们面对电影级别的长视频时，却显得力不从心。因而，长视频的分析与理解，特别是对于长达数小时电影内容的理解，成为了当前的一个巨大挑战。究其原因，导致模型理解长视频困难的一个主要原因是缺乏高质量、多样化的长视频数据资源，而且收集和注释这些数据需要庞大的工作量。面对这样的难题，腾讯和复旦大学的研究团队提出了 MovieLLM，一个创新性的 AI 生成框架。MovieLLM 采用了创新性的方法，不仅可以生成高质量、多样化的视频数据，而且能自动生成大量与之相关的问答数据集，极大地丰富了数据的维度和深度，同时整个自动化的过程也极大地减少了人力的投入。

Nature子刊 | 由AI推动的探针化学反应，从自动化到智能化，清华联合NUS开发融合化学家知识的原子机器人探针

https://mp.weixin.qq.com/s/lDKMEEGwvSuhXQ9W7ewZdw

随着芯片技术的发展，硅基芯片受限于物理工艺极限，寻找其他芯片材料是未来的重点发展方向。开壳磁性纳米石墨烯作为一类新型碳基量子材料，具有强大的π自旋中心和非同寻常的集体量子磁性，对于在分子水平上开发高速电子器件或创建量子比特（量子计算机的构建块）至关重要。表面合成方法的出现使量子材料得到广泛发展，然而该方法受到更高选择性和效率的限制，要在原子水平上精确制备和调控这类量子材料的性质仍然具有挑战性。鉴于此，清华大学的王笑楠副教授联合新加坡国立大学（NUS）Jiong LU副教授、Chun ZHANG副教授等人通过整合探针化学知识和人工智能，开创了化学感知原子机器探针（CARP）的概念系统，以在单分子水平上制备和表征开壳磁性纳米石墨烯，实现其π电子拓扑和自旋构型的精确构建。

产业

奥特曼重返OpenAI董事会：看完3万份文件，调查组认定了

https://mp.weixin.qq.com/s/iWyz9jwngWQNsMP9DLCTEA

特别独立调查委员会发现，在去年 OpenAI 管理层动荡时，首席执行官萨姆・奥特曼（Sam Altman）的行为「不构成强制解雇」，现在他重新加入董事会了。历时超过 110 天，OpenAI 的宫斗剧现在迎来了盖棺定论的时刻。没有通用人工智能危机，也和神秘的技术突破 Q* 无关，国际律师事务所 WilmerHale 在大量调查之后认定，这次动荡的原因在于董事会成员之间关系破裂。现在，奥特曼和 Greg Brockman是「OpenAI 的正确领导者」。

教授何恺明在MIT的第一堂课

https://mp.weixin.qq.com/s/5GGzH72U8NcguXEG2lw6Eg

700 座的大教室，相比去年增加一倍容量，仍然座无虚席，这就是麻省理工学院（MIT）计算机视觉课《Advances in Computer Vision》6.8300 在 2024 新学期的盛况。有网友评论说，能选上这课的学生太幸运了，每节都是计算机视觉顶会 CVPR Oral 的体验。对于很多人来说，其中最为期待的自然是新晋教授何恺明的课。MIT 电气工程与计算机科学系副教授何恺明（Kaiming He）在 3 月 7 日走上讲台上完成了自己「人生中教的第一堂课」。

LeCun最新专访：为什么物理世界终将成为LLM的「死穴」？

https://mp.weixin.qq.com/s/TD6BpT-ncl7JL381dcw3Ig

在人工智能领域，很少有像 Yann LeCun 这样的学者，在 65 岁的年龄还能高度活跃于社交媒体。一直以来，Yann LeCun 都是以「直言不讳的批评者」形象活跃于人工智能领域。他始终支持开源，并带领 Meta 的团队推出了占据如今开源大模型领域半壁江山的 Llama 2；他对很多人深感恐慌的人工智能末日论不以为然，坚信 AGI 的到来一定是件好事……近日，LeCun 又一次来到 Lex Fridman的播客，展开了一场接近三个小时的对谈，内容涉及开源的重要性、LLM 的局限性、为什么人工智能末日论者是错误的，以及通向 AGI 的道路等话题。

怎么劝ChatGPT干活效果最好？我们尝试了100种方法，有图有真相

https://mp.weixin.qq.com/s/haiYQ4a1302co5oMFj8DBw

在 ChatGPT API 中，系统提示是一项很有亮点的功能，它允许开发人员控制 LLM 输出的「角色」，包括特殊规则和限制。系统提示中的命令比用户输入提示中的命令要有效得多，这让开发人员拥有了更大的发挥空间，而不是像现在使用 ChatGPT 网页应用程序和移动应用程序那样仅仅使用用户提示。举个例子，一个很有趣的 Trick 就是「给小费」。BuzzFeed数据科学家 Max Woolf 是数亿 ChatGPT 用户中的一员。他亲自尝试过：如果没有 500 美元的小费奖励，ChatGPT 只会返回一个表情符号，这是一个无聊的回复，但在提供小费后，它会根据要求生成 5 个表情符号。在社交媒体上，这种演示有很多，但也引起了很大争议：一位些评论者认为没有办法量化小费的效果。

推特

OpenAI迎来新董事会成员:Fidji Simo、Sue Desmond-Hellmann和Nicole Seligman

https://x.com/sama/status/1766291001134715207?s=20

非常高兴欢迎我们的新董事会成员:Fidji Simo、Sue Desmond-Hellmann和Nicole Seligman,并继续与Bret、Larry和Adam合作。

我感谢我们团队中的每一个人在这个充满挑战的时期保持韧性(这是OpenAI的一项重要技能!)并保持专注。

特别要感谢Mira在这场闹剧中、之后以及在所有真正重要的平静时刻与我建立了牢固的伙伴关系和领导力。还要感谢Greg,他发挥了特殊的领导作用,没有他,OpenAI根本就不会存在。身处战壕总是很糟糕,但有他们两个在身边会好很多。

我从这次经历中学到了很多。我现在要说的是:当我相信一位前董事会成员通过他们的一些行为损害了OpenAI时,我本应该以更优雅和谨慎的方式处理这种情况。对此我表示歉意,我希望我当时能以不同的方式处理。我假设所有相关人员都真诚地相信,正确对待AGI至关重要。

我们面前有重要的工作,我们迫不及待地想向您展示接下来会发生什么。

吴恩达：当我们达到 AGI 时,它的到来将是缓慢的

https://x.com/AndrewYNg/status/1766554536192446957?s=20

当我们达到 AGI 时,它的到来将是缓慢的,而不是在一夜之间。NeurIPS 杰出论文奖获得者,大型语言模型的新兴能力是幻觉吗? (由 @RylanSchaeffer,@BrandoHablando,@sanmikoyejo 撰写)研究了 LLM 的新兴特性,并得出结论:"……新兴能力似乎是由于研究人员选择的度量标准,而不是由于模型行为随规模而发生的根本变化。具体来说,非线性或不连续的度量标准会产生明显的新兴能力,而线性或连续的度量标准则会产生平滑、连续、可预测的模型性能变化。" 当大量人们突然意识到一项技术时,公众认知就会出现不连续性——也许这项技术已经发展了很长时间——从而导致意外。但 AI 能力的增长比人们想象的更加连续。这就是为什么我预计通向 AGI 的道路将涉及众多向前迈进的步骤,从而逐步提高我们系统的智能水平。

Park分享应用程序：用Apple Vision Pro控制机器人

https://x.com/younghyo_park/status/1766274298422161830?s=20

Younghyo Park：🥽 想用你的新 Apple Vision Pro 来控制你的机器人吗?想要记录你如何导航/操纵世界来训练策略吗?

我开发了一个 VisionOS 应用程序,可以通过 WiFi 传输你的头部/手腕/手指的动作,你可以在任何机器上使用一个简单的 Python 库来订阅这些动作。

暂时无法在飞书文档外展示此内容

Pika Labs推出音效功能：抱歉，我们刚才静音了

https://x.com/pika_labs/status/1766554610188095642?s=20

...抱歉,我们刚才静音了。今天,我们在 Pika 上推出了音效功能。

现在,你可以无缝地生成音效并将其集成到视频中。你可以提示你想要的声音,或者让 Pika 根据视频的内容自动生成声音。

如果这听起来很棒,那是因为它确实很棒。

暂时无法在飞书文档外展示此内容

Bland Web：一个听起来像人类且无所不能的 AI，甚至可以添加到Apple Vision Pro

https://x.com/usebland/status/1766250122277712122?s=20

介绍 Bland web。一个听起来像人类且无所不能的 AI。📢

将语音 AI 添加到您的网站、移动应用、电话、视频游戏,甚至是您的 Apple Vision Pro。⚡️

立即与未来对话:http://Chat.bland.ai

暂时无法在飞书文档外展示此内容

BaoGPT：允许您对 YouTube 视频提出问题，完全开源

https://x.com/LangChainAI/status/1766526111943426321?s=20

📹BaoGPT

BaoGPT 是一个 AI 项目,允许您对 YouTube 视频提出问题。

完全开源,基于 LangChain、Anthropic 和 Qdrant 构建,并带有 Discord 和 Gradio 前端界面。

在这里查看仓库:https://github.com/metaswang/bao

美国国家标准与技术研究院(NIST)员工反对将"有效利他主义"人工智能研究者任命为美国人工智能安全研究所所长一职

https://x.com/ylecun/status/1766368635885396071?s=20

根据至少两位直接了解情况但要求匿名的消息源透露,美国国家标准与技术研究院(NIST)正面临一场内部危机。由于预计保罗·克里斯蒂亚诺(Paul Christiano)将被任命为该机构新成立的美国人工智能安全研究所(AISI)的一个关键(尽管非政治性)职位,该机构的工作人员和科学家已威胁要辞职。

产品

Questflow

https://www.questflow.ai/

Questflow 是一个协作式 AI 自动化工作区，旨在简化跨多个平台的任务自动化。通过 Questflow，用户可以轻松地发送电子邮件、更新日历、组织数据库和在社交媒体上发布内容，所有这些都可以在多人文本到工作流程平台中完成。Questflow 的目标是让非程序员也能够构建自定义工作流程自动化来简化重复性任务，并且通过人工智能的帮助，改变工作流，使 AI 可以更好的协助用户。

IdeaApe

https://ideaape.com/?ref=producthunt

Idea Ape 是一个 AI 市场研究工具，帮助创业者了解相关的市场行情，进一步验证商业理念。

HuggingFace&Github

GaLore

https://github.com/jiaweizzhao/GaLore

GaLore 是一种梯度低秩投影（Gradient Low-rank Projection）的训练方式。这种方法允许全参数学习，相比于常见的低秩适应方法（如LoRA），GaLore 更省内存。通过 GaLore 方法，在优化器状态下将内存使用量减少多达 65.5%，同时保持了在不同架构上进行预训练和微调的效率和性能。GaLore 方法还可以在具有消费级 GPU（如 NVIDIA RTX 4090）上预训练大型模型，而无需使用模型并行、检查点或卸载策略。

LangChain for Java

https://github.com/langchain4j/langchain4j

LangChain4j 是一个旨在简化将人工智能/大型语言模型（AI/LLM）功能集成到 Java 应用程序中的工具。它提供统一的 API，使得不同的 LLM 提供商（如 OpenAI 或 Google Vertex AI）和嵌入式存储（如 Pinecone 或 Vespa）之间的切换变得更加容易，避免了需要学习和实现它们各自特定的 API。LangChain4j 还提供了一个综合的工具箱，其中包括从低级到高级的工具，帮助开发人员构建基于 LLM 功能的应用程序，如聊天机器人或 RAG（Retrieval-Augmented Generation）模型，并提供了多种模式和抽象的接口和实现。

MaxText

https://github.com/google/maxtext

MaxText 是一种高性能、可任意扩展、开源、简单、易于分叉、经过充分测试的电池，采用LLM纯 Python/Jax 编写，面向 Google Cloud TPU。由于 Jax 和 XLA 编译器的强大功能，MaxText 通常可实现 55% 到 60% 的模型翻牌利用率，并从单个主机扩展到非常大的集群，同时保持简单和“免优化”。

学习

MIT CSAIL 2024春季课程：计算机视觉的进步

https://advances-in-vision.github.io/index.html

MIT CSAIL的课程“6.8300/6.8301: Advances in Computer Vision, 春季2024”涵盖计算机视觉的基础和高级领域，从早期视觉到中高级视觉的话题，包括机器学习基础和用于视觉的卷积神经网络。课程分为研究生水平的6.8300和本科生水平的6.8301，要求先修课程为（6.1200或6.3700）以及（18.06或18.C06）。课程评分由作业（60%）和最终项目（40%）组成。对于6.8301的学生，最终项目成绩的四分之一（即课程成绩的10%）将基于参与沟通研讨会（出席为必须）和完成特定的CI-M相关任务。

聊一聊Transformer中的FFN

https://zhuanlan.zhihu.com/p/685943779?utm_psn=1750196496581279744

文章探讨了Transformer模型中前馈神经网络（FFN）部分的变化与其技术演进。尽管FFN自Transformer提出以来变化不大，仍为Linear Proj + Activation + Linear Proj的结构，但其激活函数经历了从ReLU到GeLU、Swish等的演变。作者指出，尽管改变FFN的激活函数并不会显著提升性能，但对于减少过拟合和提高泛化有一定帮助。此外，FFN在存储Transformer学习到的知识方面发挥着关键作用，因此难以进行压缩加速而不牺牲模型性能。文章还提到，尽管存在性能和效率的挑战，通过引入混合专家模型（Mixture-of-Expert, MoE）等方式，仍有改进空间。

深入解读Transformer扩散模型的先驱之作：DiT、PixArt、HDiT

https://zhuanlan.zhihu.com/p/684953658?utm_psn=1750196851020869632

文章探讨了DiT、PixArt、HDiT这三个模型的技术特点和贡献。DiT模型遵循标准的transformer架构，旨在保留扩散模型的可扩展性，同时采用patchify技术处理图像输入，并通过不同的transformer blocks处理附加条件信息。PixArt-α模型则通过分解训练策略、采用高效的文本到图像Transformer架构，以及构建高信息量数据集，显著降低训练成本同时实现卓越的图像生成质量。HDiT模型作为一种沙漏形扩散transformer，代表了图像生成扩散模型框架的新发展。这些模型的创新性设计和应用，不仅推进了基于transformer的扩散模型结构的发展，也为图像生成技术的进步提供了重要贡献。

一些已成为LLM InferEngine中事实标准的方法

https://zhuanlan.zhihu.com/p/685706549?utm_psn=1750197393805475840

这篇文章主要介绍了在大型语言模型（LLM）推理引擎中常用的几种注意力机制方法。包括Multi-Query Attention（MQA）、Grouped-Query Attention（GQA）、Sliding Window Attention（包括Mistral和Longformer的变种），以及ALiBi（Attention with Linear Biases）。这些方法旨在提高模型的效率和性能，特别是在处理长序列数据时。文章还提到了flashattention/paged-attention/tree-attention等技术，但未详细展开。这些技术的应用有助于优化模型部署和推理过程。