1 大模型普遍缺乏辩论框架意识
机器之心|阅读原文
12 月 19 日,智源研究院发布并解读国内外 100 余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。
语言模型主观评测重点考察模型中文能力,结果显示字节跳动 Doubao-pro-32k-preview、百度 ERNIE 4.0 Turbo 位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022 位列第三、第四,阿里巴巴 Qwen-Max-0919 排名第五;
在语言模型客观评测中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴 Qwen-max-0919、字节跳动 Doubao-pro-32k-preview 位居第三、第四,Meta Llama-3.3-70B-Instruct 排名前五。
本次评测发现,大模型普遍缺乏辩论框架意识,不具备对辩题以整体逻辑进行综合阐述;大模型在辩论中依然存在「幻觉问题」,论据经不起推敲;大模型更擅长反驳,各个模型表现突出的辩论维度趋同,在不同的辩题中,模型表现差距显著。FlagEval Debate 评测结果表明,Anthropic Claude-3-5-sonnet-20241022、零一万物 Yi-Lighting、OpenAI o1-preview-2024-09-12 为前三名。
2 对话谷歌科学家:智能体是大模型落地重点,AI的未来是大小模型协作
Founder Park|阅读原文
随着行业内高阶推理模型的推出,再次彰显了强化学习在通往 AGI 道路上的重要性,也标志着大模型 AI 进入了一个全新阶段。对此,深度参与 AlphaZero 项目的 Google DeepMind 资深研究科学家 Nenad Tomasev 表示:「强化学习的能力使 AI 不再受人类知识的限制,而是能够超越这些限制,开辟新的可能性。」
随着强化学习被引入到大模型训练,传统的开发训练方式也正在被颠覆。Nenad 表示:「未来,相比依赖单一的模型,我们会构建拥有多种能力的智能体。」
来自谷歌的专家,Nenad Tomasev 和 D.Sculley表示:1、强化学习让 AI 拥有了「超人级」的能力;2、智能体和多模态整合是未来的重点——考虑如何将这些现有强大的模型以工作流的形式结合起来,让它们能够满足具体的任务需求并成功执行任务;3、AI 开发范式不再是数据主导,而是模型主导;4、未来不是一个模型决定一切,而是大小模型配合——认为更现实的方向是,我们的系统将由多个 AI 模型或智能体(agent)相互协作,比如,当你运行一个系统,它需要调用一个专有的,或基于 API 的语言大模型,但同时你也希望对输出结果进行验证,以确保它完全符合你的应用需求。这时,拥有一个由应用开发者完全控制的小型模型可能就非常重要。这两个模型就会协作完成任务。
3 今年AI基建已成,2025年AI的三个趋势
Founder Park|阅读原文
如果说2024 年是 AI 的元年,那么2025年将会发生这些:
- 基模公司差异化竞争白热化
- AI 搜索正在成为杀手级应用
-
- AI 搜索可能会使当前这个一统天下的市场出现分化:每个专业都有自己专门的 AI 搜索引擎——分析师和投资者默认使用 Perplexity,律师会使用 Harvey 这样的平台,医生则会使用 OpenEvidence 这样的解决方案。循着这个思路,我们可以把 Midjourney 看作是对“像素宇宙”的搜索,Github Copilot 是对“代码宇宙”的搜索,而 Glean 则是对“文档宇宙”的搜索。
- 与传统搜索不同,AI 搜索可以在语义层面深入得多,因此其功能强大程度要高出一个数量级,带来显著的增量生产力提升。
- 2025 年投资回报率将持续面临问题,资本支出将开始趋于稳定
-
- 随着新的数据中心产能在 2025 年投入使用,AI 算力价格应该会继续大幅下降。这对创业公司来说是个好消息,会激励全新的创新。正如我们过去指出的,创业公司主要是算力的消费者而非生产者,因此他们从产能过剩中受益。科技巨头实际上正在创造一个将惠及整个 AI 生态的补贴。
对此,你怎么看?
支付宝/钉钉扫码加入支付宝开发者钉组织,可了解支付宝开放能力最新动态,订阅文档更新消息,和同城同行业交流业务,与支付宝产研沟通交流。