大模型日报 3月1日_the-stack-v2数据集介绍-CSDN博客

本文链接：https://blog.csdn.net/LLM_SPACE/article/details/136429451

资讯

研究

首批类Sora模型出现，色拉布上线Snap Video，效果优于Pika、不输Gen-2

https://mp.weixin.qq.com/s/vh7KJ1wFKesCZBBL2rbu_g

最近，OpenAI 视频生成模型 Sora 的爆火，给基于 Transformer 的扩散模型重新带来了一波热度，比如 Sora 研发负责人之一 William Peebles 与纽约大学助理教授谢赛宁去年提出的 DiT（Diffusion Transformer）。当然，随着视频生成这波 AI 趋势的继续演进，类似架构的模型会越来越多。就在昨天，开发出 SnapChat 图片分享软件的 Snap 公司、特伦托大学等机构联合发布了类似 Sora 的文本生成视频模型 Snap Video，这次他们使用到了可扩展的时空 Transformer。相关的论文《Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis》已经放出。

ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

https://mp.weixin.qq.com/s/-jt5qufKSibPCz0A6DHbPg

“绝不是简单的抠图。” ControlNet作者最新推出的一项研究受到了一波高度关注——给一句prompt，用Stable Diffusion可以直接生成单个或多个透明图层（PNG）！这就是ControlNet作者提出的新方法——LayerDiffusion，允许大规模预训练的潜在扩散模型（Latent Diffusion Model）生成透明图像。

5天完成6个月实验量，加速催化研究，「自动驾驶」催化实验室Fast-Cat登Nature子刊

https://mp.weixin.qq.com/s/wyAeTH96m67fsVHXmhkOlw

今年 1 月底，荷兰阿姆斯特丹大学开发自主化学合成 AI 机器人「RoboChem」。一周内，可以优化大约 10~20 个分子的合成。这需要博士生几个月的时间。还有去年 DeepMind 团队开发的自主实验室 A-Lab，17 天自主合成 41 种新化合物。卡内基梅隆大学的 Coscientist，自主设计、规划和执行复杂的科学实验......现在，来自美国北卡罗来纳州立大学和全球特种材料公司伊士曼化学公司（Eastman Chemical Company）合作，开发了一个「自动驾驶」催化实验室：Fast-Cat，利用 AI 和自动化系统，对化学研究和制造中使用的催化反应进行深入分析。Fast-Cat 可以在五天内提供比 6 个月的传统测试更多的信息。Fast-Cat 是完全自主的，利用人工智能和自动化系统连续进行高温、高压、气液反应。自主技术还分析每个反应的输出，以确定（无需人工干预）不同变量如何影响每个实验的结果。

产业

“国家队”入局，多模态大模型企业联汇科技宣布完成新一轮数亿元战略融资

https://mp.weixin.qq.com/s/bKkW5wu036KpW7znKmnokg

近日，杭州联汇科技股份有限公司（以下简称 “联汇科技”）宣布完成新一轮数亿元战略融资，投资方由中国移动产业链发展基金中移和创投资、前海方舟（前海母基金管理机构）旗下中原前海基金和齐鲁前海基金等多家头部国资与市场化机构组成。领投方中国移动产业链发展基金中移和创投资是贯彻落实中央企业现代产业链链长工作要求，由中国移动与北京市政府、上海市政府发起成立，服务于数字经济、移动信息现代产业链发展、战略新兴产业等国家战略。

开源代码生成模型 StarCoder 2 全新上线！

https://mp.weixin.qq.com/s/vb0VT2r7OAXNEmnAtICaqQ

StarCoder2 是一套面向代码的开放式大语言模型系列，提供 3 种规模的模型，分别包括 30 亿 (3B)、70 亿 (7B) 和 150 亿 (15B) 参数。特别地，StarCoder2-15B 模型经过了超过 4 万亿 token 和 600 多种编程语言的训练，基于 The Stack v2 数据集。所有模型均采用分组查询注意力机制 () (Grouped Query Attention)，具备 16,384 个 token 的上下文窗口和 4,096 个令牌的滑动窗口注意力，并通过“填充中间” (Fill-in-the-Middle) 技术进行训练。StarCoder2 包含三种规模的模型: ServiceNow () 训练的 30 亿参数模型、Hugging Face 训练的 70 亿参数模型以及 NVIDIA 利用 NVIDIA NeMo 在 NVIDIA 加速基础架构上训练的 150 亿参数模型。

AI Pin 制造商 Humane 与韩国 SK Telecom 签订投资协议，首批产品预计 4 月中旬交付

https://www.ithome.com/0/752/922.htm

据悉，SK Telecom 目前已经成为 Ai Pin 在韩国的独家电信合作伙伴，该公司宣布获得了 Humane 的 AI 技术与 CosmOS 系统授权，未来将整合 SKT 的移动网络、物联网、云端、AI 及 5G 技术协力开发 AI 应用。据介绍，Humane 是苹果前设计师 Imran Chaudhri 及软件开发员 Bethany Bongiorno 成立的初创公司，该公司在去年 11 月推出了可穿戴人工智能设备 Ai Pin，该设备本身不具有屏幕，而是采用投影显示：其可在手掌上投射 720p 单色 UI 界面，用户可通过语音和手势进行交互。此外，Ai Pin 还带有 2 个呼吸灯，以告知用户是否有来电、短信等内容。

推特

马斯克：接下来几周，Grok 将在国会通过这些庞大的法律之前对它们进行总结

https://x.com/elonmusk/status/1763433242047189232?s=20

在接下来的几周内，Grok 将在国会通过这些庞大的法律之前对它们进行总结，以便你了解它们的真正目的。

Figure以26亿美元的估值融资6.75亿美元，和OpenAI合作，将多模态模型扩展到机器人感知、推理和交互

https://x.com/OpenAI/status/1763279054244049006?s=20

OpenAI：OpenAI + 人形机器人 — 我们正在与@Figure_robot合作，将我们的多模态模型扩展到机器人的感知、推理和交互。

Figure以26亿美元的估值融资6.75亿美元

此外，OpenAI和Figure签署了合作协议，以开发下一代AI模型。

投资来自：

微软
OpenAI 创业基金
英伟达
Jeff Bezos (through Bezos Expeditions)
Parkway Venture Capital
Intel Capital
Align Ventures

暂时无法在飞书文档外展示此内容

预测性人类偏好：预测用户可能会偏好哪个模型来回答特定的查询

https://x.com/chipro/status/1763232619544928698?s=20

Chip Huyen：构建AI应用的一个挑战是选择使用哪个模型。如果我们不必选择呢？如果我们能预测出对于任何提示，最佳模型是哪一个呢？

预测性人类偏好旨在预测用户可能会偏好哪个模型来回答特定的查询。

一个用例是模型路由。如果我们提前知道对于一个提示，用户会更喜欢Claude Instant的回应而不是GPT-4，且Claude Instant比GPT-4更便宜/更快，我们可以将这个提示路由给Claude Instant。

模型路由有潜力在降低成本和延迟的同时提高响应质量。

ChatMusician：根据文本、和弦、旋律、主题和音乐形式创作结构完整的全长音乐，胜过GPT4

https://x.com/reach_vb/status/1763315222285009297?s=20

ChatMusician：

Llama 2 预训练 + 进一步微调。

胜过 GPT 4。

可以根据文本、和弦、旋律、主题和音乐形式创作结构完整的全长音乐。

代码、数据、模型、基准 - 开源 - MIT许可证！

暂时无法在飞书文档外展示此内容

Marques Brownlee分享使用Sora效果视频和心得

https://x.com/MKBHD/status/1763332752836047234?s=20

提示1：一只中等体型、看起来友好的狗穿过一个工业停车场。环境雾蒙蒙的，多云的。用35mm胶片拍摄，色彩鲜艳。

我学到了：

1：它可能会在物理方面遇到困难，特别是在腿/走路方面。经常在Sora生成的走路视频中，腿会交叉并融合在一起。此外，品牌物品从来都无法完全符合现实生活。像汽车、相机等东西从来都无法确切地识别为特定型号。

3：我的天，有时候光线真的很好。在第三个片段中，几乎就好像左边画面外有一个大的柔光键光，而且总体来说，光线和阴影的匹配非常好。横穿桌子、电脑、键盘、脸等……但他有6个手指，哈哈。

暂时无法在飞书文档外展示此内容

Prompt 1: A medium sized friendly looking dog walks through an industrial parking lot. The environment is foggy and cloudy. Shot on 35mm film, vivid colors.

Vincent Abbott分享Mixtral8x7b学习海报

https://x.com/vtabbott_/status/1763151907345051902?s=20

在实施深度学习算法的过程中，我再次审视了当前性能最好的开源模型。

因此，我介绍Mixtral-8x7b，深度学习中最令人兴奋的算法。

基础模型开发速查表：降低新社区成员熟悉各种资源、工具和发现的门槛

https://x.com/AiEleuther/status/1763219826602901518?s=20

我们很高兴能够合作推出一个新的资源发布，以帮助为新的开放模型开发者提供一个入门途径：基础模型开发速查表！这份速查表作为一个简洁的指南，由基础模型开发者为基础模型开发者准备。随着AI基础模型开发领域的迅速扩张，欢迎新的贡献者、科学家和应用加入，我们希望降低新社区成员熟悉各种资源、工具和发现的门槛。这份速查表的重点不仅仅是支持建设，甚至主要是培养良好的实践、意识到限制以及作为社区规范的一般负责任的习惯。虽然它肯定不是全面的，但我们选择了一些我们发现有用的资源样本，并推荐其他人考虑。我们希望它能作为一个普遍的指南，促进负责任的开发实践，以及在我们领域构建新的模型和基础设施。这份文件提供了上下文化的信息和速查表的静态样本——完整记录的、实时的。

OpenAI：正在探索GPT-4如何为游客和城市增强欧洲旅游体验

https://x.com/OpenAI/status/1763300075588259985?s=20

我们正在与@DubCityCouncil合作，探索GPT-4如何为游客和城市增强欧洲旅游体验。

这项探索将包括创建一个为定制行程服务的AI助手，以及为欧洲城市领导者举办的实践AI工作坊。https://dublincity.ie/news/dublin-city-council-and-openai-announce-partnership-show-potential-ai-support-europes-tourism

Color CEO Laraki评价GenAI对谷歌的难题：“我们错过的机会将比我们的错误花费更多”

https://x.com/othman/status/1763263384332767392?s=20

GenAI对谷歌构成的难题比我最初假设的要深得多...过去几周完全回响了我在2000年代初期在谷歌的时光，那时我们正面临微软的挑战——除了这次谷歌处于接收端。

回顾过去，我们击败微软不是因为我们有更好的技术，而是因为我们迫使他们按照我们的规则和我们的“时钟速度”来玩。

许多人（包括我自己）将谷歌的大型语言模型（LLM）问题视为技术追赶的问题——特别是OpenAI。理所当然，凭借其惊人的才能、基础设施、用户和数据，谷歌可以并且将会赶上OpenAI，很可能能够构建更好的技术。

但我意识到这可能是错误的。上周的灾难（甚至更多，谷歌的反应）凸显了谷歌现在面临的真正且有些无法解决的问题。

谷歌不会在明天输给OpenAI——它在过去十年中已经输给了它。

相对于OpenAI和Perplexity这样的公司，谷歌今天面临的问题与我们20年前对微软所做的非常相似。ChatGPT特别让我们意识到，许多我们迄今为止标记为“搜索”的任务，以及我们点击蓝色链接的地方，实际上是研究、分析和决策的任务。

20年前，我们将谷歌视为完成这些任务的方式，因为谷歌解决了那个工作流中最重要的挑战，即通过搜索引擎将世界上所有的信息带到一键之遥。

在这20年中，谷歌构建并一直在收割史上最赚钱的商业模式之一（记住我们曾经以类似的钦佩谈论操作系统+桌面生产力商业模式）。

现在的问题是，ChatGPT、Perplexity等已经向我们展示，我们过去认为基于搜索引擎的工作流程有很多甚至可以通过与这种新的技术魔法交流更好地服务（就像25年前的PageRank让谷歌搜索感觉神奇一样）。

对谷歌来说真正的问题是时钟速度。谷歌突然火烧眉毛，试图创新未来。但现在，这种创新必须发生在其业务的核心。OpenAI不在乎搅乱一个广告商业模型——他们可以仅仅通过产品/质量的纯粹性迭代，这是谷歌无法做到的。

谷歌在接下来的几年中不会输给OpenAI。它在过去的十年中已经输了，那时它本可以在其成功阻碍的时钟速度下将AI演变/迭代到其模型中。现在游戏开始了，但以一种创业公司的时钟速度，谷歌没有机会追赶，更不用说在下一个周期中赢得胜利了。

这个问题随着时间的推移而加剧，因为我们每天都在向OpenAI提供我们的使用模式、反馈、自定义GPT、集成等……在这个阶段，除非谷歌愿意向市场和其客户伸出中指并说对不起，未来在召唤——随时可以选择退出并将您的钱投资到其他地方。

悲哀的是，谷歌实际上有能力这样做，但很少有现有企业能够实现。Meta/Zuck已经做了几次这样的事情（移动过渡、VR赌注，现在是AI），所以我们知道这是可能的，但这种情况发生的可能性极小。人们常常认为这只是因为马克是创始人，但我认为这是因为他在风险和机会之间的态度。

我将以我认为捕捉到这种态度的短语结束：我们错过的机会将比我们的错误花费更多

论文

通过估计数据分布的比率进行离散扩散建模

链接：http://arxiv.org/abs/2310.16834v2

尽管扩散模型在许多生成建模任务上表现突出，但在自然语言等离散数据领域表现不佳。本研究提出了评分熵，这是一种新颖的损失函数，自然地将评分匹配扩展到离散空间，无缝集成以构建离散扩散模型，并显著提升性能。在标准语言建模任务上对Score Entropy Discrete Diffusion模型（SEDD）进行实验，结果显示SEDD在相当的模型规模下击败了现有的语言扩散范式（将困惑度降低了25-75％），与自回归模型竞争，并特别胜过GPT-2。与自回归模型相比，SEDD生成忠实的文本而无需分布退火技术，可以在计算和质量之间进行交换，并支持可控填充。

DistriFusion：高分辨率扩散模型的分布式并行推理

链接：http://arxiv.org/abs/2402.19481v1

扩散模型在合成高质量图像方面取得了极大成功。然而，由于巨大的计算成本，使用扩散模型生成高分辨率图像仍然具有挑战性，导致交互应用的延迟成为禁忌。本文提出了DistriFusion来解决这个问题，通过利用多个GPU之间的并行性。我们的方法将模型输入分成多个块，并将每个块分配给一个GPU。然而，朴素地实现这样的算法会破坏块之间的互动并丢失保真度，而引入这样的互动将导致巨大的通信开销。为了克服这一困境，我们观察到相邻扩散步骤输入之间的高相似性，提出了位移块并行性，利用了扩散过程的顺序性质，通过重新使用先前时间步骤中预先计算的特征图，为当前步骤提供上下文。因此，我们的方法支持异步通信，可以通过计算进行流水线处理。大量实验证明，我们的方法可以应用于最近的Stable Diffusion XL模型，无需降低质量，并在与一个NVIDIA A100相比达到最多6.1倍的加速。我们的代码公开在https://github.com/mit-han-lab/distrifuser。

Panda-70M：利用多个跨模态教师为70M个视频加上字幕

链接：http://arxiv.org/abs/2402.19479v1

数据和注释的质量上限了下游模型的质量。虽然存在大量的文本语料库和图像文本对，但高质量的视频文本数据却更难收集。首先，手动标注更耗时，需要注释者观看整个视频。其次，视频具有时间维度，由多个场景堆叠在一起，展示多个动作。因此，为了建立具有高质量标题的视频数据集，我们提出了一种利用多模态输入的自动方法，例如文本视频描述、字幕和单独的视频帧。具体来说，我们从公开可用的HD-VILA-100M数据集中获取了380万个高分辨率视频，然后将它们分割成语义上一致的视频剪辑，并应用多个跨模态教师模型为每个视频获取标题。接下来，在一个小的子集上微调检索模型，在那里手动选择每个视频的最佳标题，然后在整个数据集中使用该模型选择最佳标题作为注释。通过这种方式，我们获得了7000万个配有高质量文本标题的视频。我们将该数据集命名为Panda-70M。我们展示了提出的数据集在三个下游任务上的价值：视频字幕、视频和文本检索，以及文本驱动的视频生成。在所有任务中，训练在提出的数据上的模型在大多数指标上都有显著提高。

简单的线性注意力语言模型能平衡召回率和吞吐量的权衡

链接：http://arxiv.org/abs/2402.18668v1

近期的研究表明，基于注意力的语言模型在记忆方面表现出色，即在tokens在上下文中看到过的情况下生成。然而，在推理过程中，基于注意力的模型效率受到KV-cache的内存消耗的瓶颈限制。本研究探讨了如何在不影响记忆的情况下改善语言模型的效率（如通过减少内存消耗）。通过在广泛的体系结构上应用实验和理论，我们发现了模型状态大小和记忆能力之间的关键权衡。我们展示了一种简单的架构BASED，结合了线性和滑动窗口注意力，可以在记忆-效率权衡曲线的Pareto边缘上进行调整。我们对拥有1.3b参数的语言模型进行训练，并表明BASED在困惑度上与最强的次二次模型（如Mamba）相匹敌，在真实世界的记忆密集任务中比它们提高了6.22个准确性点。要使BASED具有竞争力，我们开发了IO-aware算法，使其在生成1024个tokens时使用1.3b参数模型时的语言生成吞吐量提高了24倍。此工作的代码可在以下网址获取：https://github.com/HazyResearch/based。

Griffin: 混合门控线性循环和局部注意力以提高大语言模型的效率

链接：http://arxiv.org/abs/2402.19427v1

递归神经网络（RNNs）具有快速推断和对长序列的有效扩展，但训练困难且难以扩展。我们提出了Hawk，一种具有门控线性重复的RNN，以及Griffin，一种混合模型，将门控线性重复与本地注意力相结合。Hawk在下游任务上的表现超过了Mamba的报告性能，而Griffin在训练过程中使用的token数量是Llama-2的6倍还多。我们还展示了Griffin可以对比训练时看到的序列长得多的序列进行推断。我们的模型在训练过程中与Transformer的硬件效率相匹配，在推断过程中具有更低的延迟和显著更高的吞吐量。我们将Griffin扩展到了14B参数，并解释了如何将我们的模型进行分片以进行高效的分布式训练。

评估量化大语言模型

链接：http://arxiv.org/abs/2402.18158v1

摘要：后训练量化（PTQ）已成为减少大型语言模型（LLMs）成本的一种有前途的技术。具体来说，PTQ可以有效地降低内存消耗，并减少LLMs的计算开销。为了满足在不同场景下高效率和高性能的需求，对量化LLMs进行全面评估对于指导量化方法的选择至关重要。本文通过评估PTQ对11个模型系列（包括OPT、LLaMA2、Falcon、Bloomz、Mistral、ChatGLM、Vicuna、LongChat、StableLM、Gemma和Mamba）的重量、激活和KV缓存的影响，参数范围从125M到180B。评估涵盖五种类型的任务：基本NLP、涌现能力、可信度、对话和长上下文任务。此外，我们还评估了最先进的（SOTA）量化方法，以展示它们的适用性。根据广泛的实验，我们系统总结了量化的效果，提供了应用量化技术的建议，并指出了未来的方向。

人形机器人的移动转化为下一个token预测

链接：http://arxiv.org/abs/2402.19469v1

我们将现实世界的人型控制问题视为下一个token预测问题，类似于语言中预测下一个单词。我们的模型是一个经过自回归预测感知运动轨迹训练的因果Transformer。为了考虑数据的多模态性，我们以模态对齐的方式进行预测，对于每个输入token，从相同模态预测下一个token。这个一般性的公式使我们能够利用数据的缺失模态，比如没有动作的视频轨迹。我们在模拟轨迹的集合上训练我们的模型，这些轨迹来自之前的神经网络策略、基于模型的控制器、动作捕捉数据以及人类的YouTube视频。我们展示了我们的模型使一个真人大小的人型能够在旧金山行走零射。我们的模型可以在仅训练了27小时的行走数据时转移到真实世界，并且可以泛化到训练中从未见过的命令，比如向后行走。这些发现表明通过对感知运动轨迹进行生成建模，可以在学习具有挑战性的现实世界控制任务方面找到一条有前途的道路。

C-GAIL：利用控制理论稳定生成对抗模仿学习

链接：http://arxiv.org/abs/2402.16349v1

生成对抗模仿学习（GAIL）训练生成策略来模仿演示者。它使用基于策略的强化学习（RL）来优化从类GAN鉴别器衍生的奖励信号。GAIL的一个主要缺点是训练不稳定性 - 它继承了复杂的GAN训练动态，并且RL引入的分布转移。这可能导致训练过程中的振荡，影响其样本效率和最终策略性能。最近的研究表明，控制理论可以帮助GAN训练的收敛。本文延伸了这一系列研究，进行了对GAIL的控制理论分析，并推导出一种新颖的控制器，不仅推动GAIL达到期望的平衡，而且在“一步”设置中实现了渐近稳定性。基于此，我们提出了一个实用算法“Controlled-GAIL”（C-GAIL）。在MuJoCo任务中，我们的控制变体能加快收敛速度、减少振荡范围，并更接近匹配专家的分布，对于普通的GAIL和GAIL-DAC。

MOSAIC: 模块化智能厨房辅助交互系统

链接：http://arxiv.org/abs/2402.18796v1

我们提出了MOSAIC，一个模块化的架构，用于家庭机器人执行复杂的协作任务，比如与日常用户一起烹饪。MOSAIC紧密与人类协作，用自然语言与用户互动，协调多个机器人，管理日常物品的开放词汇表。在核心，MOSAIC采用模块化方法：利用多个大规模预训练模型执行通用任务，如语言和图像识别，同时使用为特定任务设计的简化模块进行控制。我们对MOSAIC进行了广泛评估，进行了60次端到端试验，其中两个机器人与一个人类用户合作烹饪6种食谱的组合。我们还对各个模块进行了广泛测试，在180次视觉运动拾取、60次人类运动预测和46次任务计划器的在线用户评估中。我们展示MOSAIC能够有效地与人类合作，通过与真实人类结束用户一起运行整个系统，在6种不同食谱的68.3％（41/60）合作烹饪试验中完成了任务完成率为91.6％的子任务。最后，我们讨论了当前系统的局限性和这一领域中令人兴奋的挑战。项目网站位于https://portal-cornell.github.io/MOSAIC/。

产品

LTX Studio

https://ltx.studio/

LTx Studio 是一款由 Lightricks 开发的 Al 视频制作平台，用户借助 AI 实现从概念到最终剪辑的全部视频制作。该平台提供深度帧控制、角色一致性保持、自动编辑等功能，简化视频创作流程，使每个人都能轻松讲述故事。

AgentX

https://www.agentx.so/

AgentX 是一个 AI Agent 创建平台，让用户能够轻松创建自己的多模型 AI Agent。AgentX 提供了一系列功能，包括精确的响应、意图检测、潜在客户生成和转化、多模型选择、知识嵌入、部署和集成以及实时分析。通过 AgentX，用户可以部署他们的代理到网站小部件、Discord、Agent Space 等平台上。此外，还提供了实时分析功能，帮助用户深入了解潜在客户和互动数据。

Blobr

https://www.blobr.io/

Blobr 是一个连接到用户业务工具的新型 AI 业务助手。通过连接各种 SaaS 工具，利用帮助用户AI 获取业务洞察力和数据，以便更快做出决策。Blobr 可以从各个连接的 SaaS 中检索数据，协调并生成新的商业智能，帮助用户跨工具获取信息一键集成。

HuggingFace&Github

StarCoder 2

https://github.com/bigcode-project/starcoder2

StarCoder2 是一系列代码生成模型（3B、7B 和 15B），在 The Stack v2 的 600+ 种编程语言和一些自然语言文本（如 Wikipedia、Arxiv 和 GitHub 问题）上进行训练。这些模型使用 Grouped Query Attention，这是一个包含 16,384 个标记的上下文窗口。3B和7B模型是在3万亿个代币上训练的，而15B是在4+万亿个代币上训练的。

Emote Portrait Alive：弱条件下使用 Audio2Video 扩散模型生成富有表现力的人像视频

https://github.com/HumanAIGC/EMO

阿里巴巴推出了一项名为EMO AI的突破性技术，即Emote Portrait Alive。EMO AI 的核心是以单张人像照片为起点。利用 AI ，它深入研究图像中捕获的面部特征和表情。当提供音频输入时，无论是语音还是唱歌，EMO AI 都会发挥其魔力。它为照片中描绘的人物制作了一段令人着迷的视频，并配有栩栩如生的动作和完美同步的口型同步。

投融资

微软和前谷歌CEO支持旨在使AI系统按人意图行动的初创公司

https://fortune.com/2024/02/29/synth-labs-ai-alignment-startup-ex-google-ceo-eric-schmidt-microsoft/

前谷歌CEO埃里克·施密特支持名为Synth Labs的初创公司，该公司致力于解决AI行动与人类意图一致性的难题。该公司由业内知名人士创立，从微软的风投基金M12和施密特的First Spark Ventures筹集了种子资金。Synth Labs主打开发软件（部分为开源）帮助各企业确保AI系统的行为符合预期，同时提倡透明和协作的工作方式。面对基于大型语言模型的聊天机器人等AI应用的技术挑战，该公司展现了通过自动化过程调整和定制大型语言模型的研究方法，旨在实现对AI模型易用的自动评估与校准，使之服务于不同企业及个人偏好。

机器人初创公司Figure估值26亿美元，贝索斯、亚马逊、Nvidia等加入融资

https://www.cnbc.com/2024/02/29/robot-startup-figure-valued-at-2point6-billion-by-bezos-amazon-nvidia.html

由杰夫·贝索斯、Nvidia、亚马逊、微软以及OpenAI投资的Figure AI在其最新融资轮中筹集了6.75亿美元，估值高达26亿美元。该初创企业成立于2022年，开发了一款名为Figure 01的通用人形机器人，外观和动作类似于人类。该公司计划将机器人应用于制造、运输物流、仓储和零售等“劳动力短缺最严重”的行业，但不涉及军事或国防应用。此次融资将助力Figure AI加速其人形机器人的开发，并将与ChatGPT的制造商OpenAI合作开发下一代针对人形机器人的AI模型，同时使用微软的Azure云服务进行AI基础设施、训练和存储。

前Twitter工程师打造Particle：AI驱动的新闻阅读器，获得440万美元支持

https://techcrunch.com/2024/02/29/former-twitter-engineers-are-building-particle-an-ai-powered-news-reader/

由前Twitter工程师领衔的团队正在创建一款名为Particle的AI驱动新闻阅读器，旨在通过AI概述新闻，提供个性化和多视角的新闻阅读体验，同时公平地向作者和出版商付费。Particle尚未公布其商业模式，但该产品适时面世在日益萎缩的新闻生态系统中。该公司由Twitter前产品管理高级总监Sara Beykpour和曾在Twitter和特斯拉任职的高级工程师Marcel Molina共同创立，目前已进入私有测试阶段。这家初创公司在2023年4月完成了由Kindred Ventures和Adverb Ventures领投的440万美元种子轮融资。Particle提供了新闻摘要，并计划未来提供移动应用。

Nvidia竞争对手在初创公司方面的投资有多少？我们进行了调查

https://techcrunch.com/2024/02/29/how-much-are-nvidias-rivals-investing-in-startups-we-investigated/

在过去几年中，作为最大的人工智能芯片制造商的Nvidia加大了对深入人工智能领域的初创公司的投资力度。根据S&P Global和Crunchbase的数据，Nvidia不仅仅是在芯片制造上占据主导地位，其也在通过对AI初创公司的投资扩展影响力。这一战略移动引发了关于Nvidia的竞争对手究竟在初创企业上投了多少资的疑问。尽管Nvidia在AI领域具备技术和市场领先优势，但它的竞争对手，如AMD和Intel，也在加大投资力度，以巩固各自在AI市场的立足点。文章针对这些竞争对手及其他相关企业在AI初创公司投资方面的情况进行了探讨。

学习

Sora懂不懂物理世界？

https://www.zhihu.com/question/645000449

本页面讨论了AI模型Sora对物理世界的理解能力。专家顾险峰教授指出Sora在物理视频生成中存在问题，如无法精确表达物理因果律、缺乏全局合理性、忽略临界态等。Sora通过短视频训练集学习，将视频编码到数据空间并切割成时空补丁，但这种方法在表达物理过程时存在局限性。其他专家则认为，尽管Sora不能完全理解物理世界，但它的预测输出在一定范围内是有用的，且AI的发展可能会提高我们对物理世界的理解。

【Mamba的前世今生】Efficient Recurrent Transformer 与 SSM（S4）

https://zhuanlan.zhihu.com/p/684454735?utm_medium=social&utm_oi=56635854684160&utm_psn=1746707082034921472&utm_source=wechat_timeline

这篇文章讨论了Efficient Recurrent Transformer（ERT）和State Space Model（SSM）S4在长序列建模方面的技术进展。文章首先介绍了长序列建模的基准测试LRA和Perplexity，然后详细讨论了Transformer的改进，包括Transformer-XL和FLASH，它们通过引入RNN中的隐状态概念和GAU（Gated Attention Unit）来提高模型处理长序列的能力。接着，文章探讨了SSM系列模型，如S4、DSS、GSS，它们通过结构化状态空间来提升长序列建模效率。此外，还提到了Mamba模型，它通过去除LTI约束和引入选择性状态空间来提高效率。文章还涉及了其他相关技术，如MoE-Mamba、Vision Mamba等，这些技术在处理长序列数据时展现出了显著的性能提升。

ICLR2024 强化学习相关文章汇总

https://zhuanlan.zhihu.com/p/682527492?utm_psn=1746825959268032512

文章关于ICLR2024会议中强化学习相关论文的汇总，作者筛选并整理了17个领域的论文，包括多智能体强化学习、预训练、无监督强化学习、人类反馈强化学习（RLHF）、在线强化学习、离线强化学习等。作者计划深入阅读并分享Oral和Spotlight文章的笔记和见解，特别关注离线强化学习和RLHF领域。此外，文章还提到了多智能体强化学习、预训练、无监督强化学习等领域的具体论文标题。

MCTS + RL 系列技术博客（10）：使用多方面的先验知识强化 MCTS Agent

https://zhuanlan.zhihu.com/p/684528177?utm_psn=1746826757322559489

本文探讨了如何通过集成先验知识来增强蒙特卡洛树搜索（MCTS）智能体的性能。主要介绍了三种方法：1) 基于最大熵的探索，通过引入玻尔兹曼策略和贝尔曼估计值来增强探索能力；2) 利用专家数据的先验，结合对抗模仿学习和MCTS，提高样本效率和性能；3) 融合大型语言模型（LLMs）的世界知识先验，优化搜索过程。这些方法在围棋、物体重排等任务中表现出色，展示了MCTS在复杂决策问题中的潜力。

彭博：语言模型的挑战和未来，仍需解决哪些问题？

https://mp.weixin.qq.com/s/i97nqFJhgYRXkTF0syTuaw

彭博在文章中讨论了语言模型面临的挑战和未来发展方向。他提出了几个目标，包括生成连贯的长篇小说、根据用户指示学习和修正观念、改进采样方法、发展真正的规划能力、实现多模态理解和直接使用图像作为输入。彭博还提出了三个实际问题，探讨了AI在数学证明、理论物理和文学创作方面的潜力。他认为，尽管大模型的学习能力很强，但在算法和硬件方面仍有进步空间。彭博强调，AI的目标应该是增强人类，而不是取代人类。他还提到，尽管OpenAI的GPT-4没有显著超越前代，但国内很快可能会复现类似的技术。

diffusion model(五) LDM: 在隐空间用diffusion model合成高质量的图片！（stable diffusion底层原理）

https://zhuanlan.zhihu.com/p/684484121?utm_psn=1746830265735868417

文章介绍了Latent Diffusion Model（LDM），这是一种在隐空间进行图像合成的扩散模型。LDM通过预训练的VAE模型将图像从像素空间转换到隐空间，然后在隐空间进行扩散过程，显著提高了训练和推理效率。LDM采用了两阶段训练策略，先训练VAE，再训练扩散模型。此外，LDM还能够引入控制信号，如文本或图片布局，以实现更细粒度的图像生成。这种方法使得高分辨率图像合成在消费级显卡上成为可能，降低了AI图像生成的门槛。