大模型日报 3月13日_chenbeidi-CSDN博客

本文链接：https://blog.csdn.net/LLM_SPACE/article/details/136708106

特别活动

资讯

研究

向数字世界AGI迈进！智能体已经从头开玩「荒野大镖客 2」了

https://mp.weixin.qq.com/s/q_lgeiXFzTU4WEt9wpUG3w

信息革命产生了数字世界，数字世界为大模型的诞生提供了数据，也最容易实现通用人工智能（AGI）。向数字世界 AGI 迈进，北京智源人工智能研究院、新加坡南洋理工大学、北京大学携手提出通用计算机控制 General Computer Control (GCC) ，即智能体需要像人一样看屏幕，通过键盘、鼠标完成计算机上的所有任务。 在过去很长一段时间里，人工智能研究以游戏为场景，而 GCC 将为通用人工智能研究提供场景，也将进一步促进大模型和 AI Agents 的落地与产业化。为此，研究团队提出通用计算机控制智能体框架 Cradle，使智能体不依赖任何内部 API 直接控制键盘、鼠标和任何软件交互，无论开源还是闭源，甚至能玩《荒野大镖客 2》这样的商业 3A 游戏大作！

AI图片橡皮擦来了，清华&阿里合作推出「概念半透膜」模型，还能改头换面

https://mp.weixin.qq.com/s/lt7GtiqicO5HoPkb5vQHKw

清华大学丁贵广教授团队和阿里安全联合发布了概念半透膜模型（concept Semi-Permeable Membrane， SPM 模型） ，该模型能够在 Diffusion 架构的 AI 作图模型中，精准、可控地擦除各类具象或抽象概念，并对无关概念做到几乎完全保留。相关论文《One-dimensional Adapter to Rule Them All: Concepts, Diffusion Models and Erasing Applications》已经被计算机视觉国际顶级会议 CVPR 2024 高分录用。

如何把大量物理知识塞给AI？EIT和北大团队提出「规则重要性」概念

https://mp.weixin.qq.com/s/TSckhMvpNMQk96Xk9YpedQ

深度学习模型因其能够从大量数据中学习潜在关系的能力而「彻底改变了科学研究领域」。然而，纯粹依赖数据驱动的模型逐渐暴露出其局限性，如过度依赖数据、泛化能力受限以及与物理现实的一致性问题。例如，美国OpenAI公司开发的文本到视频模型Sora因深刻理解事物在现实中的存在方式而受赞誉，被视为AI领域的飞跃。尽管能利用大量视觉数据生成逼真图像和视频，Sora却被认为未掌握物理定律，如重力和玻璃破碎等。面对这一问题，将人类知识融入深度学习模型是一个潜在的解决方案。将先验知识与数据一起使用，能够提升模型的泛化能力，从而创建能够理解物理规律的「知情机器学习」（Informed machine learning）模型。然而，目前对深度学习中知识的价值仍缺乏深入理解，确定哪些先验知识（包括函数关系、等式和逻辑关系等）能有效地融入模型以进行「预学习」，已成为一项亟待解决的难题。同时，盲目地整合多项规则可能会引发模型的崩溃。这种局限性制约了对数据与知识关系的进一步探索。针对这一问题，东方理工（EIT）和北京大学的研究团队提出了「规则重要性」的概念，并开发了一套框架，能精确计算每个规则对模型预测精度的贡献。该框架不仅揭示了数据和知识之间的复杂相互作用关系，为知识嵌入提供了理论性指导，还有助于在训练过程中平衡知识和数据的影响。此外，该方法还可用于识别不恰当的先验规则，为交叉学科领域的研究与应用提供广阔前景。

准确性比AlphaFold2高6倍，Basecamp推出AI模型BaseFold，蛋白结构预测新突破

https://mp.weixin.qq.com/s/oWYZUHtGoH8mCzu-M1TP6w

2018 年，DeepMind 发布了蛋白质预测算法 AlphaFold，席卷整个生物学界。AlphaFold 能够准确预测蛋白质结构。了解蛋白质如何相互作用是了解生物技术领域的关键，从如何使食物味道更好，到如何使农作物在气候变化中生存，再到治愈癌症。自发布以来，AlphaFold、AlphaFold2 及其在过去几年中生成的数亿个蛋白质结构，已成为世界各地生物技术研究人员工具包的重要组成部分。尽管 AlphaFold 推动了行业的发展，但它也有其自身的局限性。研究人员距离合成生物学的圣杯还有很长的路要走：AI 模型可以采用所需的蛋白质形状，并通过找到与之相互作用的正确化学物质，或完全设计一种自然界中找不到的蛋白质来弄清楚如何创造它。3 月 12 日，基于 AI 的蛋白质和其他生物系统设计领域的全球领导者 Basecamp Research，宣布推出其新的深度学习模型 BaseFold。与其他 AI 驱动的模型相比，该模型可以比其他 AI 工具更准确地预测大型复杂蛋白质的 3D 结构，包括行业黄金标准 AlphaFold2。Basecamp表示，其模型 BaseFold 在更广泛的数据集上进行训练，可以产生比 AlphaFold2 更准确的蛋白质结构预测。BaseFold 利用 Basecamp 专门构建的基础数据集，显著提高了大型复杂蛋白质结构和小分子相互作用的预测精度，其准确性比 AlphaFold2 高出六倍，并将小分子对接提高了三倍。

产业

首个AI软件工程师上线！已通过公司面试抢程序员饭碗，华人创始团队手握10块IOI金牌

https://mp.weixin.qq.com/s/QkkYAilf4_XZyBRqSIEL2Q

前段时间，英伟达 CEO 黄院士发出惊人言论：「都别学编程了，以后交给 AI 就行了，以后人人都是软件工程师。」当时还有很多人反对，说「AI 永远不会取代程序员。」没想到，首个人工智能软件工程师 Devin 一发布，程序员的饭碗可能真要被 AI 端走了。在 SWE-Bench 基础测试中，无需人类协助，Devin 就可以解决 13.86% 的问题。而目前的 SOTA 模型，在没有人类帮忙的情况下，只能完成 1.96% 的任务。仅从评测结果看，Devin 解决真实世界软件问题的能力要远好于当前的 GPT-4 和 Claude等模型。官方发的推特说，Devin 不仅通过了一家业内领先的人工智能公司的面试，在自由职业平台 Upwork 上也能成功接单，完成单主要求的工作。也就是说，Devin 不仅是横扫基础测试的「做题家」，在就业市场里也有人为它的工作能力买账。

GPT-4.5 Turbo意外曝光，官方网页被扒出，网传明天就上线

https://mp.weixin.qq.com/s/JuV3NGvrwtCG9qY228S-WA

由于 OpenAI 每次都能给我们超乎想象的 AI 体验惊喜，大家不由得对他们的实力有着更高期待。GPT-5 的发布时机或许还扑朔迷离，但我们离 GPT-4.5 的发布可能真的不远了。最新消息显示，OpenAI 的 GPT-4.5 Turbo 在 Bing 和 DuckDuck Go 等搜索引擎已经索引到了产品页面，可能于 6 月推出，也可能是明天。

专为训练Llama 3，Meta 4.9万张H100集群细节公布

https://mp.weixin.qq.com/s/yVvriGq2sZRjjoLh5q8qLQ

生成式大模型给人工智能领域带来了重大变革，人们在看到实现通用人工智能（AGI）希望的同时，训练、部署大模型的算力需求也越来越高。刚刚，Meta 宣布推出两个 24k GPU 集群（共 49152 个 H100），标志着 Meta 为人工智能的未来做出了一笔重大的投资。这是 Meta 雄心勃勃的基础设施路线图中的一步。Meta 会持续扩大基础设施建设，到 2024 年底将包括 350000 个 NVIDIA H100 GPU，其计算能力将相当于近 600000 个 H100。Meta 表示：「我们坚定致力于开放计算和开源。我们在 Grand Teton、OpenRack 和 PyTorch 之上构建了这些集群，并将继续推动整个行业的开放创新。我们会使用这种算力集群来训练 Llama 3。」图灵奖得主、Meta 首席科学家 Yann LeCun 也发推强调了这一点。Meta 分享了新集群在硬件、网络、存储、设计、性能和软件方面的详细信息。新集群将为各种人工智能工作负载获取高吞吐量和高可靠性。

推特

推理引擎Truffle1：旨在仅使用60瓦特的功率运行开源软件模型

https://x.com/iamgingertrash/status/1767593902251421763?s=20

simp 4 satoshi宣布推出Truffle-1，一款售价1299美元的推理引擎,旨在仅使用60瓦特的功率运行开源软件模型。

在没有推测性解码的情况下,它将以每秒22+个令牌的速度运行Mixtral,这比Nvidia Orin架构上的GGML快2倍,因为他们的软件栈。Truffle坐落在桌面上,通过BLE、WiFi或USB-C与任何设备进行接口,使其变得智能。Truffle的软件构建为一组Cortexes,支持转录、语音合成和推理(LLM's)。Truffle还附带一个学习新信息的工具包,允许在云中构建模型并将其分发给其他Truffle用户。

Shenoy分享Devin使用感受：在数据提取方面非常出色，是一个真正有效的多步骤智能体

https://x.com/varunshenoy_/status/1767591341289250961?s=20

Varun Shenoy：Devin在数据提取方面非常出色。在过去的几周里,我一直在从不同的博客中抓取数据,而Devin则:

编写网页抓取器来导航网站
执行代码
返回带标签的CSV文件

Devin是一个真正有效的多步骤智能体,让人感叹! 🤯

Talin整理：风险投资支持的AI员工初创公司和总融资额

https://x.com/chiefaioffice/status/1767680581112873242?s=20

风险投资支持的AI员工初创公司是一个趋势。

以下是2024年获得融资的一些公司及其总融资额:

软件工程师 - Cognition (2100万美元以上)

软件工程师 - Magic (1.45亿美元以上)

产品经理 - Version Lens (160万美元)

数据科学家 - TextQL (410万美元)

数据分析师 - Fluent (750万美元)

首席助理 - Mindy (600万美元)

通用员工 - Ema (2500万美元)

财务分析师 - Finpilot (450万美元)

财务分析师 - Rogo (750万美元)

合规专员 - Norm Ai (1110万美元)

前台接待 - Arini (50万美元)

贷款业务员 - Casca (390万美元)

酒店礼宾 - Runnr (120万美元)

设计师 - SevnAI (50万美元)

客户支持 - Sierra (1.1亿美元)

客户支持 - Rasa (7000万美元)

Raschka阅读ML Contests新报告心得：在53个获胜解决方案中,有49个使用PyTorch,而只有6个使用TensorFlow + Keras

https://x.com/rasbt/status/1767561783382872194?s=20

Sebastian Raschka：我并不惊讶地看到,在53个获胜解决方案中,有49个使用PyTorch,而只有6个使用TensorFlow + Keras。这反映了我们在过去几年里在学术研究中看到的趋势,例如在Papers with Code的趋势中。我也很高兴听到有8个获胜解决方案使用了我们的PyTorch Lightning库!

不过,令我感到惊讶的是,大多数计算机视觉竞赛仍然是使用卷积神经网络而不是Vision Transformer获胜的。就我个人而言,我在使用Vision Transformer方面有很好的经验(只要从预训练的模型开始),但正如我在2023年2月所写的那样,卷积神经网络出现了许多有趣的新方法。(去年10月还有一篇"Battle of the Backbones:A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks"的论文。)

有趣的是,我们看到7B和13B参数的解码器风格LLM也开始取代BERT、DeBERTa和T5等编码器风格的Transformer用于二元分类任务。我认为这是因为围绕小型LLM的工具由于其相对流行而迅速发展。此外,更大的参数数量有助于弥合解码器和编码器风格模型在非生成分类任务方面的性能差距。

在大众认知中,我的感觉是,与2010年代中期相比,ML竞赛已不再那么受欢迎。然而,我们看到奖金大幅增加。考虑到运行基于Transformer的LLM和Vision Transformer的硬件和云计算要求,这可能是为了证明保持竞争力的更高成本是合理的。(超过70%的获胜者使用GPU训练模型。)

首选平台似乎是Google Colab。但是,我可以预见,由于@LightningAI Studios的推出,这种情况明年会有很大变化,它为更大规模的训练运行提供多GPU和多节点支持,并在Jupyter Lab旁边提供方便的VSCode界面。

马斯克：AI可能在明年就会比任何一个人类都更聪明。到2029年,AI可能比所有人类加起来还要聪明

https://x.com/elonmusk/status/1767738797276451090?s=20

马斯克：AI可能在明年就会比任何一个人类都更聪明。到2029年,AI可能比所有人类加起来还要聪明。

转发KanekoaTheGreat：

未来学家Ray Kurzweil告诉Joe Rogan,AI将在2029年达到人类水平的智能。"我们还没有完全做到,但我们将会做到,到2029年它将与任何人匹敌。实际上,我被认为是保守的。人们认为这将在明年或后年发生。我实际上在1999年就说过这一点。我说到2029年我们将与任何人匹敌。所以30年来,人们认为这完全是疯狂的。事实上,斯坦福大学召开了一次会议,邀请了几百人从世界各地来讨论我的预测,人们认为这将会发生,但不会在2029年。他们认为这需要100年的时间。"

Deepgram Aura：用于语音AI代理的超快文本转语音技术

https://x.com/svpino/status/1767586456036417627?s=20

这是目前最快的文本到语音和语音到文本API。

它的首字节延迟低于250毫秒。这正是我们在各地部署对话式AI应用所需要的!

(我迫不及待地等待自动语音机的消亡。)

看看附带的视频。我第一次能够与AI代理进行实时对话,没有尴尬的停顿。

这项技术来自Deepgram的Aura。这是我见过的最快的文本到语音选项。

这里有一个GitHub仓库,其中包含视频中的演示:

https://github.com/deepgram-devs/deepgram-conversational-demo

你可以使用它来构建一个使用自然语音的对话式AI应用。你需要一个Deepgram API密钥和一个OpenAI API密钥。

感谢Deepgram让我访问Aura并与我合作发布这篇文章。

如果你想了解更多关于Aura的信息,这里是公告帖子:https://dpgr.am/dgaura

暂时无法在飞书文档外展示此内容

Suleyman：不要认为AI没有解决重大挑战，我们在新电池材料方面因为AI看到了重大进展

https://x.com/mustafasuleyman/status/1767550900288069984?s=20

Mustafa Suleyman：

任何认为AI没有解决重大挑战的人都没有注意。每个人都知道,电池是清洁能源转型不可或缺的一部分,但还没有达到我们需要的水平。现在,多亏了AI,我们在新电池材料方面看到了重大进展,它将3200万种材料缩小到23种有前途的选择。不仅在基础科学,而且在实际问题上的具体进展已经在进行中 https://sciencenews.org/article/artificial-intelligence-new-battery

Beidi Chen：推出Sequoia，可以在一张RTX4090上提供Llama2-70B，token延迟为半秒

https://x.com/BeidiChen/status/1767742793990967602?s=20

我们宣布推出新的推测解码框架Sequoia。它现在可以在一张RTX4090上提供Llama2-70B,每个token的延迟为半秒(精确的,没有近似)。听起来像树懒一样慢???有趣的是:DeepSpeed->每个token需要5.3秒;8张A100:每个token需要25毫秒(花费8 x 140,000+,但一张RTX4090只需$1000+)。你也可以用你的2080Ti来服务!好奇是如何实现的吗?快来看看吧。网站:https://infini-ai-lab.github.io/Sequoia-Page 论文:https://arxiv.org/abs/2402.12374 代码:https://github.com/Infini-AI-Lab/Sequoia

暂时无法在飞书文档外展示此内容

论文

Branch-Train-Mix：将专家 LLMs 混合到一个专家 LLM 混合中

链接：http://arxiv.org/abs/2403.07816v1

我们研究了训练大语言模型（LLMs）在多个专业领域具有能力的高效方法，例如编码、数学推理和世界知识。我们的方法名为Branch-Train-MiX（BTX），从一个种子模型开始，分支训练专家，以令人尴尬地并行、高吞吐量和降低通信成本的方式。在各个专家被异步训练后，BTX将它们的前向参数作为Mixture-of-Expert（MoE）层中的专家聚合，平均剩余参数，随后进行MoE微调阶段以学习token级别的路由。BTX泛化了两种特殊情况，分支训练合并方法不需要MoE微调阶段学习路由，稀疏回收省略了异步训练专家阶段。与其他方法相比，BTX实现了最佳的准确性和效率平衡。

更难的任务需要更多专家： MoE 模型中的动态路由

链接：http://arxiv.org/abs/2403.07652v1

在本文中，我们介绍了一种新颖的动态专家选择框架，用于混合专家（MoE）模型，旨在通过根据输入难度调整激活专家数量，从而提高计算效率和模型性能。与传统的MoE方法不同，传统方法依赖于固定的Top-K路由，无论输入的复杂性如何都会激活预定数量的专家。我们的方法根据每个输入中对专家选择的信心水平动态选择专家。这允许更有效地利用计算资源，对于需要高级推理的复杂任务激活更多专家，而对于简单任务则激活更少。通过广泛评估，我们的动态路由方法在各种基准测试中显示出与传统Top-2路由相比的显着改进，平均提高了0.7％，激活参数少于90％。进一步分析显示，我们的模型将更多专家分配到需要复杂推理技能的任务，如BBH，验证了其动态分配计算资源以符合输入复杂性的能力。我们的发现还强调了转换器模型不同层中所需专家数量的变化，为设计异质MoE框架提供了见解。代码和模型可在https://github.com/ZhenweiAn/Dynamic_MoE 中找到。

神经网络和 LLMs 中优化轨迹的特征：长度、转折和死胡同

链接：http://arxiv.org/abs/2403.07379v1

我们通过分析神经网络优化轨迹中包含的丰富参数结构，提出了对理解神经网络机制的新视角。我们引入了一些自然的优化轨迹复杂性概念，揭示了动量、权重衰减和批量大小等不同优化选择之间固有的微妙和相互作用。我们利用它们提供有关深度神经网络优化本质的关键特征：何时正确进行，何时陷入僵局。此外，感谢我们的轨迹视角，我们揭示了动量和权重衰减之间促进方向探索的交织行为，以及其他一些方向正则化行为。我们在大规模视觉和语言环境中进行了实验，包括具有多达120亿参数的大型语言模型（LLMs），以展示我们方法的价值。

讲生动故事：一种表达流畅的多模态叙述者

链接：http://arxiv.org/abs/2403.07301v1

故事叙述旨在基于有序图像流生成合理和生动的叙述。对图像故事主题的忠实和故事情节的多样性吸引读者继续阅读。先前的作品通过迭代改善多模态对齐，但最终导致生成简单故事情节的图像流。在这项工作中，我们提出了一个新的流水线，称为LLaMS，以生成体现表现力和一致性的多模态人类级故事。具体来说，通过充分利用LLM内的常识知识，我们首先采用序列数据自动增强策略增强事实内容表达，并利用文本推理架构进行表现力强的故事生成和预测。其次，我们提出了用于故事插图生成的SQ-Adapter模块，可以保持序列一致性。通过人类评估进行了数字结果验证，证实了所提出的LLaMS的优越性。评估结果表明，LLaMS实现了最先进的叙事性能，并与先前的SOTA方法相比，具有86%的相关性和100%的一致性胜率。此外，进行了消融实验以验证所提出的序列数据增强和SQ-Adapter的有效性。

LookupFFN：使Transformer在 CPU 推断中变得更轻量

链接：http://arxiv.org/abs/2403.07221v1

尽管GPU集群是当今训练大型深度神经网络模型的事实标准选择，但出于工作流程的简便性、安全性和成本等多种原因，人们开始研究是否CPU在许多行业领域的日常推断中可能是可行的选择。我们研究了现代DNN架构中的工作模块，基于GEMM的前馈网络（FFNs），评估其在可以进行计算（或FLOP）轻量化的程度。具体来说，我们提出了一种替代公式（我们称之为LookupFFN），受到最近的使用局部敏感哈希（LSH）来近似FFNs的研究的启发。我们的公式将大多数关键操作重构为内存查找，利用任何平台上两种资源（计算和内存）之间的权衡：计算和内存（因为CPU在这方面提供丰富）。对于RoBERTa语言模型的预训练，在减少所需FLOP的同时，我们的公式实现了与基于GEMM的FFNs类似的性能。我们的开发是与详细的硬件配置文件分析相辅相成，这将最大程度地提高效率- 不仅适用于当前硬件，而且适用于不久的未来/中期产品。可以在https://github.com/mlpen/LookupFFN找到代码。

Curry-DPO: 通过课程学习和排名偏好增强对齐

链接：http://arxiv.org/abs/2403.07230v1

直接偏好优化（DPO）是一种有效的技术，利用成对偏好数据（通常是每个用户提示选择和拒绝的响应对）来使LLMs与人类偏好保持一致。在实践中，对于给定的提示可能存在多个响应，相对质量各不相同。有了针对多个响应的质量评级，我们提出利用这些响应为给定提示创建多个偏好对。我们的工作重点是通过课程学习方法系统地利用构建的多个偏好对进行DPO培训。具体而言，根据各种标准，我们将这些多组偏好数据从易到难进行排序（模拟课程培训）。我们详细比较了我们提出的方法与标准单组偏好DPO设置之间的差异。我们的方法，我们称之为Curry-DPO，在MTbench，Vicuna，WizardLM和UltraFeedback测试集上持续显示出性能提升，突出其有效性。具体来说，Curry-DPO在MT-bench上获得了7.43分的分数，Zephy-7B模型胜过大多数参数大小相似的现有LLMs。在我们的实验中，Curry-DPO还在Vicuna，WizardLM和UltraFeedback测试数据集上获得了最高的调整胜率（分别为90.7％，87.1％和87.9％），与标准DPO技术相比有高达7.5％的显著增益。

产品

Codifyer

https://codifyer.io/

Codifyer.io 是一个自动化数据库创建和管理工具，它借助 AI 自动生成优化的数据库代码来简化数据库操作，让用户能够更专注于项目的核心逻辑和创新方面。只需描述数据结构，包括表、字段和关系，Codifyer.io 就能生成优化代码。

PitchBob.io

https://pitchbob.io/

PitchBob.io 是一款 AI 驱动的数字助手，帮助初创企业创始人应对创业过程中的日常挑战。该助手不仅可以帮助优化和评估创业点子，提供一揽子投资者文档，还能帮助申请顶尖加速器、学习如何进行陈述并应对风险投资者的棘手问题，获取15万+风险投资者数据库等。此外，它还能创建财务模型、生成五种语言的 AI Landing Page、为8个国家的AI 创业签证申请提供支持等功能。

HuggingFace&Github

Qlib

https://github.com/microsoft/qlib

Qlib是一个面向人工智能的量化投资平台，旨在利用 AI 技术在量化投资中实现潜力，赋能研究，创造价值，从探索想法到实施生产。Qlib 支持多种机器学习建模范式。包括监督学习、市场动态建模和 RL。越来越多的不同范式的SOTA Quant研究著作/论文正在Qlib中发布，以合作解决量化投资中的关键挑战。

AQLM

https://github.com/Vahe1994/AQLM

团队从 MCQ 的经典方法的角度重新审视了“极端”LLM压缩的问题，即以极低的比特数为目标，例如每个参数为2到3位。团队将这种算法称为 AQLM，将信息检索中的经典加法量化（AQ）方法推广到LLM压缩的最新技术，通过两项创新：1）以输入自适应方式学习权重矩阵的加法量化；2）在整个层块上联合优化码书参数。总体而言，AQLM是第一个在压缩至每个参数不到3位时在准确性与模型大小之间达到帕累托最优的方案，并且在极端压缩（2位）领域显著改进了所有已知方案。此存储库目前设计用于 LLaMA ， Mistral 和 Mixtral 的模型。

MoAI—语言和视觉模型的混合

https://huggingface.co/papers/2403.07508

这篇论文讨论了 LLMs 和指令调优对当前指令调优大型语言和视觉模型（LLVM）的影响。提出了一种新的LLVM，称为所有智能的混合（MoAI），利用外部计算机视觉模型的输出来增强视觉信息。MoAI 通过MoAI-Compressor 和 MoAI-Mixer 两个模块处理外部视觉模型的输出，以在视觉和语言任务中提供更好的性能，尤其在零样本视觉和语言任务中表现突出。

投融资

Prescient AI完成1000万美元A轮融资

https://refreshmiami.com/prescient-ai-raises-10m-series-a-to-help-ecommerce-brands-optimize-their-ad-spend/

Prescient AI，一家专注于广告活动收益优化的初创公司，宣布已完成1000万美元的A轮融资，由Headline和Delray Beach的CEAS Investments领投，Blumberg Capital、Focal VC及一些天使投资者跟投。至今，公司共筹集了1800万美元的风险资本。Prescient AI通过开发基于人工智能的营销模拟和预测平台，帮助电商和直接面向消费者的品牌最大化其广告支出效果。Co-founders Michael True和Cody Greco于2023年2月正式启动Prescient AI，其AI解决方案提供精确的推荐，同时考虑并量化跨渠道意识通过光环效应的影响。Prescient AI的用户基础包括一些著名品牌，例如Khloe Kardashian的时尚品牌Good American、迈阿密床垫商Eight Sleep和奢侈休闲服零售商Cozy Earth。例如，使用Prescient AI的在线炊具品牌HexClad的广告支出回报率（ROAS）增加了30%，收入增加了85%。Good American通过使用Prescient AI实现了32%的ROAS增长，流量增长了35%，付费媒体带动的收入提高了58%。Prescient AI将利用这轮融资扩大团队，从12人增加到30人，招聘包括营销、客户成功、数据工程和数据科学等多样化角色。

Kaedim获得1500万美元A轮融资

https://www.finsmes.com/2024/03/kaedim-raises-15m-in-series-a-funding.html

Kaedim，一家位于旧金山的初创公司，致力于简化游戏开发者和互动娱乐创作者的3D创作流程，已成功获得1500万美元的A轮融资。这一轮融资由A16Z GAMES领投，Pioneer Fund、Riot Games前游戏总裁Scott Gelb、Oculus联合创始人Nate Mitchell、Pragma CEO Eden Chen、Runway CEO Siqi Chen、Rebellion联合创始人Chris Kingsley CBE、Monzo创始人Tom Blomfield、前谷歌CFO Patrick Pitchette、前Divvy CRO Sterling Snow以及连续深科技公司创始人Jane Walerud等参与。Kaedim计划使用这笔资金投资于创新，为其平台增添新工具和功能，扩大团队并拓展新市场。

Applied Intuition以60亿美元估值获得AI驱动的自动驾驶软件投资

https://techcrunch.com/2024/03/12/applied-intuition-series-e-raise-funding-andreessen-lux/

Applied Intuition，一家自动驾驶软件公司，完成了2.5亿美元融资，估值达到60亿美元。该公司致力于将更多人工智能技术应用于汽车、国防、建筑和农业等领域。这轮融资由Lux Capital的Bilal Zuberi、投资者Elad Gil和保时捷投资管理（Porsche Investments Management）领投，Andreessen Horowitz、Mary Meeker的成长基金Bond以及F1世界冠军Nico Rosberg等参与投资。该公司成立于2017年，开发汽车制造商和其他公司使用的软件，以开发自动驾驶车辆解决方案。Applied Intuition声称与“前20大汽车制造商中的18家”合作，包括通用汽车、丰田和大众汽车，以及Gatik、Motional和Kodiak等自动驾驶初创公司。

生成式AI视频创业公司Tavus获得1800万美元融资，将面孔和声音克隆带入任何应用

https://techcrunch.com/2024/03/12/generative-ai-video-startup-tavus-raises-18m-to-bring-face-and-voice-cloning-to-any-app/

Tavus，一家创立四年的生成式AI创业公司，专注于帮助企业通过自动化个性化视频活动创建个人的数字“复制品”，已确认完成1800万美元的新一轮融资，并宣布开放其平台供第三方整合其软件与公司技术。这次融资由Scale Venture Partners领投，Sequoia、Y Combinator (YC)和HubSpot跟投。Tavus利用声音和面孔克隆技术，允许销售和营销团队大规模发送个性化视频给潜在客户，或让产品团队为新客户创建个性化的入门视频，所有这些都通过之前创建的数字复制品和简单的文本提示来实现。通过与第三方系统如Salesforce或Mailchimp的整合，公司可以自动化这一过程。

Empathy完成4700万美元融资，用AI帮助处理丧亲之痛的实际和情感问题

https://techcrunch.com/2024/03/12/empathy-berevement-death-ai/

Empathy是一家帮助人们在面对亲人去世时，处理实际任务和情感困扰的平台，近期获得了4700万美元的融资。这一轮融资由Index Ventures领投，多家大型保险公司参投。Empathy的服务现主要通过雇主或保险公司的政策向用户提供，占其业务的99%。该公司使用AI和人工指导帮助用户处理从撰写讣告到关闭逝者云服务账户、处理复杂财务事务等一系列与丧亲相关的问题。此轮融资将用于进一步开发工具，旨在“重新定义丧亲护理”。

学习

理解Attention:从起源到MHA,MQA和GQA

https://zhuanlan.zhihu.com/p/686149289

文章深入探讨了Attention机制的起源、发展及其在现代大型模型中的应用。文章首先回顾了注意力机制最初为解决序列问题而诞生，特别是在处理长序列时相比RNN表现出的优势。接着，介绍了Transformer模型中的Attention计算方式，以及Multi-Head Attention（MHA）、Multi-Query Attention（MQA）、和Grouped-Query Attention（GQA）的概念和优化意义。通过这些优化，模型能够更有效地处理信息，提升性能。文章还涉及了KV Cache的应用，解释了它在解码中的重要性和如何通过优化提升计算效率。这篇文章为读者提供了对Attention机制深入理解的机会，展示了其在提高模型性能和效率方面的关键作用。

为什么深度学习中神经元不是y＝kx²+b加一个激活函数呢？

https://www.zhihu.com/question/647706452/answer/3425529623?utm_psn=1751225777843367936

深度学习领域存在一个小众分支——二次神经网络（Quadratic Neural Networks），专注于研究y=kx²+b形式的神经网络。这个方向的研究者包括Fenglei Fan、Zirui Xu等，他们探索了二次神经网络的理论和计算方法。万能近似定理表明，传统简单神经元结构通过激活函数已能足够拟合任意函数，解释了为何现有神经网络偏好使用简单形式。然而，引入特定的prior knowledge，如高次关系，可能在某些情况下提供额外优势，比如通过Quadratic NNs探索数据的二次关系。该领域的研究还包括注意力机制、双线性池化等高次关系提取方法，旨在深化理解并优化神经网络结构和计算效率。

如何为 LLM 推理任务选择正确的 GPU

https://zhuanlan.zhihu.com/p/686633846?utm_psn=1751281953113120768

本文讨论了为大型语言模型（LLM）推理任务选择合适的GPU的重要性，并提出了一种性能评估工具LLMRoofline。该工具基于Roofline模型，通过AI（Arithmetic Intensity）和性能（以Tflops计）的曲线图，直观展示了不同GPU在处理计算密集型和访存密集型任务时的性能极限。文章还介绍了如何计算LLM模型推理任务的AI，并利用LLMRoofline比较不同硬件的性能。此外，还探讨了序列长度、批处理大小和优化技术（如MoE/GQA）对硬件选择的影响。

如何从零开始训练大模型（minicpm分享&讨论）

https://zhuanlan.zhihu.com/p/686664720?utm_psn=1751283260939042816

这篇文章探讨了如何从零开始训练大型语言模型（LLM），特别是minicpm模型的技术细节和实践经验。文章讨论了样本的构成和质量、不同训练阶段的样本使用、小模型样本的极限、分阶段训练的原因和方法、batch size的选择、学习率调度器（LR scheduler）的作用以及优化器与LR scheduler的协同工作。此外，还提出了W-S-D LR scheduler的优化方案，以及在预训练后期使用高质量数据（如SFT）的“和面”策略。最后，文章反思了scaling law在当前LLM训练实践中的指导意义。

DeepSeek VL系列开源，魔搭社区模型微调实践教程

https://mp.weixin.qq.com/s/Tnl5aVPd8fXmvUnv0BSuig

DeepSeek-AI发布了多模态大模型DeepSeek-VL系列，包含1.3b和7b两种规模的4个版本。这些模型在保持语言能力的同时，具备处理高分辨率图片和多模态理解的能力，能够细致回应现实场景问题。模型通过视觉-语言适配器训练、联合视觉-语言预训练和监督微调三个阶段进行训练。魔搭社区提供了推理和微调的实践教程，以及模型的下载链接，支持直接下载和使用。此外，还有微调后推理的示例和可视化结果展示。