AI大模型日报#0516：揭秘GPT-4o团队、盘点「字节 AI」过去一年、李飞飞解读“空间智能”

本文链接：https://blog.csdn.net/lionkingcz/article/details/138976920

导读：AI大模型日报，爬虫+LLM自动生成，一文览尽每日AI大模型要点资讯！

目前采用“文心一言”（ERNIE 4.0）、“零一万物”（Yi-34B）生成了今日要点以及每条资讯的摘要。欢迎阅读！

《AI大模型日报》今日要点：近期，AI大模型领域成果显著，各大科技巨头及研究团队纷纷展示其最新进展。首先，OpenAI团队在18个月内成功推出全多模态模型GPT-4o，该模型标志着计算机使用方式的一次革命。其强大的图像生成能力令网友惊讶，甚至可“复现”OpenAI总裁讲课，生成的图像在风格、细节上高度一致，引发热议。同时，清华系团队也不甘示弱，开发出单细胞身份识别的大语言模型LangCell，结合单细胞RNA测序数据与自然语言处理技术，能高效准确识别细胞身份，并已入选ICML 2024，显示出学术界在AI大模型领域的深厚实力。此外，字节跳动也一次性曝光了九个大模型，涵盖理解、生成、语音识别、语音合成等多种能力，构建了完整的AI产品线，其豆包通用模型在市场上表现尤为突出，体现了企业在商业化应用方面的敏锐洞察力。另一方面，李飞飞在TED演讲中揭秘了她的创业方向“空间智能”，旨在让AI理解和互动3D空间，为机器人学习、医疗保健等领域带来新的创新点。蚂蚁集团也展示了其在AI大模型领域的布局，由徐鹏博士领衔的NextEvo部门负责研发的蚂蚁百灵大模型，已判断原生多模态为技术方向，持续投入研发，并探讨了多模态与原生多模态的关键区别，以及技术创新与商业模式的平衡。综上所述，AI大模型领域正迎来前所未有的发展机遇，各大团队和企业竞相展示其技术实力与应用前景，为人工智能的未来发展注入了强大动力。

标题: 18个月，OpenAI这支团队搞出了GPT-4o

摘要: GPT-4o 的成功发布归功于 OpenAI 团队，特别是 Prafulla Dhariwal 的远见、才华、信念和决心。Dhariwal 是 Omni 团队的负责人，该团队推出了 GPT-4o，这是一个全多模态模型，标志着计算机使用方式的一次革命。OpenAI 的 CEO 和联合创始人对 Dhariwal 和其他团队成员的努力表示赞赏，认为他们共同推动了人工智能技术的发展。
网址: 18个月，OpenAI这支团队搞出了GPT-4o | 机器之心

标题: 识别细胞也能用大模型了！清华系团队出品，已入选ICML 2024 | 开源

摘要: 科技记者报道：清华系团队开发出单细胞身份识别的大语言模型LangCell，该模型结合了单细胞RNA测序数据和自然语言处理技术，能够高效准确地识别细胞身份，并具有强大的零样本分析能力。LangCell模型已在ICML 2024上被录用，并已开源。
网址: 识别细胞也能用大模型了！清华系团队出品，已入选ICML 2024 | 开源 | 量子位

标题: GPT-4o再秀神操作，“复现”OpenAI总裁讲课，网友当真了

摘要: GPT-4o展示了强大的图像生成能力，网友对其表现感到惊讶，甚至误以为是已故的DALL-E技术。OpenAI总裁Greg在推特上展示了GPT-4o生成的图像，这些图像在风格、细节和光照上高度一致，以至于一些网友认为这是真实人物的讲课视频。尽管有人对模型的能力提出质疑，但GPT-4o的发布让更多人能够探索其多模态处理能力，并且在上下文理解和情景对话方面表现出色。OpenAI的Omni团队负责人Prafulla Dhariwal感谢团队成员的努力，并透露GPT-4o是他们推出的第一个模型，团队成员在图像和音频生成、数据准备、集成、训练以及视频理解等方面做出了贡献。OpenAI的CEO Dmitry Shapiro也对GPT-4o的工作表示赞赏，认为它将改变我们使用计算机的方式。
网址: GPT-4o再秀神操作，"复现"OpenAI总裁讲课，网友当真了 | 量子位

标题: 博士论文 | 神经网络的结构与表示 147页

摘要: 神经网络在人工智能中占据主导地位，研究者们致力于理解其内部工作原理。一种方法是将其视为代表人类可理解特征的模块化结构。通过使用图聚类工具，可以识别网络中内部连通性强但外部连通性弱的神经元组，这些组可能是模块化的关键。经过训练的网络通常比随机初始化的网络具有更强的可聚类性，并且相对于具有相同权值分布的随机网络也表现出可聚类性。促进集群性的因素和新的方法正在被研究。模块化对于理解神经网络的功能相关性至关重要，我们关注局部专门化，即网络的某些部分执行与整体任务相关的子任务。使用图聚类算法产生的神经元组，结合解释单个神经元的技术，可以操作代理，如重要性（反映神经元集对网络性能的价值）和一致性（反映神经元与输入特征的一致性）。我们的研究发现了重要且连贯的神经元组，但并非所有组都如此。最后，我们使用可解释性工具分析了基于游戏CoinRun训练的神经网络，发现网络在测试损失较低的情况下，仍可能错误地预测分布之外的奖励，这表明需要更好的工具来理解泛化行为，并激励开发这些工具。论文题目：《神经网络的结构与表征》，作者Daniel Filan，预计2024年博士论文，加州大学伯克利分校。
网址: 博士论文 | 神经网络的结构与表示 147页 - 智源社区

标题: 一次曝 9 个大模型，「字节 AI」这一年都在做什么？

摘要: 字节跳动的大模型家族，包括了九个模型，这些模型是基于市场需求和技术发展而开发的。其中，豆包通用模型 pro 是主力模型，提供强大的理解和生成能力，适用于问答、总结、创作等多种场景。豆包通用模型 lite 则是一款轻量级模型，具有较低的 token 成本和延迟，适合需要灵活经济模型的企业。此外，还有语音识别、语音合成、文生图等多种模型，这些模型在特定领域具有专业能力。豆包和扣子是字节跳动基于大模型开发的两款主要产品。豆包 App 是一款基于豆包大模型的 AI 对话助手，它在苹果 App Store 和各大安卓应用市场中的下载量在 AIGC 类应用中排名第一，拥有超过 800 万个智能体和 2600 万的月度活跃用户。扣子则是一个 AI 应用开发平台，用于帮助开发者快速构建和部署 AI 应用。火山引擎作为字节跳动的云服务平台，通过迭代和市场验证，使得豆包大模型成为国内使用量最大、应用场景最丰富的大模型之一。火山引擎总裁谭待表示，降低模型推理价格是推动大模型进入价值创造阶段的关键因素。豆包大模型的主力模型在企业市场的定价仅为 0.0008 元/千 tokens，比行业平均水平便宜 99.3%。字节跳动在开发大模型和 AI 应用时，注重根据用户反馈和数据进行产品优化，这种基于数据驱动的产品开发模式，使得字节跳动的产品能够更好地满足用户需求，并在市场竞争中占据优势。
网址: 一次曝 9 个大模型，「字节 AI」这一年都在做什么？ | 极客公园

标题: 李飞飞揭秘创业方向“空间智能”：视觉化为洞察，看见成为理解，理解导致行动

摘要: 李飞飞在TED演讲中揭示了她的创业方向“空间智能”，这是一种旨在让AI理解和互动3D空间的技术。她认为这是解决人工智能难题的关键，能够推动机器人学习和医疗保健等领域的创新。李飞飞回顾了生物视觉的进化，以及计算机视觉在过去十年的快速发展，并展示了她的团队在开发3D空间模型和模拟环境方面的最新成果。她强调了空间智能在未来医疗保健中的应用潜力，如帮助机器人执行任务和通过脑电波控制机器人。李飞飞认为，空间智能将使AI更加智能和有感知，从而与人类共同创造一个更美好的世界。
网址: 李飞飞揭秘创业方向"空间智能"：视觉化为洞察，看见成为理解，理解导致行动 | 量子位

标题: 蚂蚁百灵大模型一号位：GPT-4o发布不意外，原生多模态方向已明

摘要: 要点： 1. GPT-4o发布：OpenAI推出整合所有模态的大语言模型GPT-4o，展示了在智能交互领域的重大进步。 2. 技术改进：GPT-4o的最大改进在于整合的精细度，所有模态集成在一个端到端的模型中，实现了更快的响应速度。 3. 关键能力借鉴：OpenAI在数据组织、技术聚焦和工程优化方面的能力值得学习，这些对于开发类似模型至关重要。 4. 原生多模态趋势：原生多模态大模型预计将成为国内大模型竞争的主要焦点。 5. 徐鹏博士简介：徐鹏博士是蚂蚁集团副总裁，负责AI创新研发与应用部门NextEvo，该部门承担了蚂蚁百灵大模型的研发工作。 6. 蚂蚁百灵大模型研发：蚂蚁集团在年初判断了原生多模态的技术方向，并持续投入研发，包括全模态数字人和智能体的相关产品。 7. 多模态与原生多模态的区别：关键在于模型训练过程中是否同时处理所有模态的数据，以及是否在单一模型中实现端到端的多模态任务。 8. 技术挑战与商业模式：技术创新与商业模式的平衡需要深入理解行业需求，并与行业内部深入合作，推动业务模式改革。 9. 产品创新建议：产品经理应深入理解AI模型发展，预判能力提升方向，思考如何利用这些能力为用户创造价值，并影响用户习惯。 10. 人机交互体验挑战：GPT-4o展示了捕捉语音语调、面部表情和情绪的能力，但技术难度和实际应用场景的验证仍需探索。
网址: 蚂蚁百灵大模型一号位：GPT-4o发布不意外，原生多模态方向已明 | 量子位