报告总结笔记 | Jeff Dean ETH AI趋势 笔记:AI 的重要趋势:我们是如何走到今天的,我们现在能做什么,以及我们如何塑造 AI 的未来?

在这里插入图片描述

报告总结笔记 | Jeff Dean ETH AI趋势 笔记:AI 的重要趋势:我们是如何走到今天的,我们现在能做什么,以及我们如何塑造 AI 的未来?

2025年 4 月 14 日,Google Research 及 Google DeepMind 的首席科学家、AI 领域的泰斗级人物 Jeff Dean 在苏黎世联邦理工学院(ETH Zurich)带来了一场干货满满的分享,系统性地梳理了 AI 发展的重要趋势,并展望了其未来潜力。

PPT链接如下:https://drive.google.com/file/d/12RAfy-nYi1ypNMIqbYHjkPXF_jILJYJP/view

本博客致力于总结这次分享的核心内容。

一、 AI 的基石与演进:我们是如何走到今天的?

Jeff Dean 首先强调,AI 的发展并非一蹴而就,而是建立在一系列关键突破和持续迭代之上。他回顾了过去几十年,特别是近十五年来的重要里程碑:

  1. 神经网络与反向传播 (上世纪): 这是现代深度学习的基石。模仿人脑神经元的人工神经网络,以及通过反向传播算法有效更新网络权重以减少误差,为 AI 的学习能力奠定了理论基础。
  2. 规模效应显现 (2012): Le 等人的研究首次证明,通过使用大规模计算资源(16000个 CPU 核心)训练更大的神经网络(比当时最大的模型大60倍),可以在 ImageNet 等任务上取得突破性进展(准确率相对提升约70%)。“大力出奇迹” 开始成为 AI 领域的重要信条。
  3. 分布式训练 (2012): Dean 等人提出的 DistBelief 系统,结合了模型并行和数据并行,使得在数千台计算机上训练比以往大 50-100 倍的神经网络成为可能,进一步释放了规模的力量。
  4. 词向量 (Word2Vec, 2013): 词语的分布式表示(Distributed Representations)被证明极其强大。它不仅能捕捉词语间的语义关系(如猫、美洲狮、老虎在向量空间中距离相近),还能揭示词语间的类比关系(如 king - queen ≈ man - woman)。这为自然语言处理(NLP)带来了革命。
  5. 序列到序列模型 (Seq2Seq, 2014): 通过编码器-解码器架构,AI 开始能够处理输入序列到输出序列的映射任务,如机器翻译。扩大 LSTM 等模型的规模被证明是有效的。
  6. 专用硬件 TPU (2015起): 为了应对日益增长的计算需求,Google 推出了张量处理单元(TPU)。这种专用硬件针对神经网络计算进行了优化,相比同时代的 CPU/GPU,TPU v1 在推理上实现了 15-30 倍的速度提升和 30-80 倍的能效提升。后续的 TPU Pods(如 TPU v4)通过高速互联构建超级计算机,极大地加速了模型训练。硬件的持续迭代(如今已发展到 Ironwood 等),在性能和能效上不断突破。
  7. Transformer 架构与注意力机制 (2017): 论文《Attention is All You Need》提出的 Transformer 模型彻底改变了序列处理。它摒弃了循环结构,通过注意力机制让模型能够关注输入序列的所有部分,并行计算能力更强,以更少的计算量和更小的模型尺寸实现了更高的精度。这成为当今大语言模型的基础。
  8. 大规模自监督学习 (2018起): 利用互联网上取之不尽的文本数据进行自监督学习(如 BERT 的 Masked Language Model,GPT 的 Autoregressive Prediction)成为可能。模型通过预测文本中的缺失部分或下一个词来学习语言的深层结构,极大地提升了语言模型的理解和生成能力。
  9. 视觉 Transformer (2021): Transformer 架构也被成功应用于计算机视觉领域,证明了其通用性。
  10. 稀疏模型/混合专家模型 (MoE, 2017起): 为了在不显著增加计算成本的前提下提升模型容量,稀疏模型(特别是 MoE)应运而生。它包含大量“专家”网络,但每次只激活其中少数几个。Google 在此领域持续深耕,从 2017 年的开创性工作到 GShard、Switch Transformers,再到 Gemini 系列模型中广泛应用的 MoE 架构,实现了训练成本和模型效果的更优平衡。
  11. 软件抽象与框架 (JAX, Pathways): 高效的软件工具(如 TensorFlow, PyTorch, JAX)和分布式计算抽象(如 Google 的 Pathways)简化了大规模 AI 模型的开发和部署,让研究人员能更方便地驾驭数万个计算芯片。
  12. 思维链 (Chain of Thought, 2022): 通过引导模型在回答问题前“思考”并展示推理步骤,可以显著提高其在复杂推理任务上的表现。这表明“思考时间”对模型性能至关重要。
  13. 模型蒸馏 (Distillation, 2014): 使用一个强大的“教师”模型来指导一个更小、更廉价的“学生”模型的训练。教师模型输出的“软标签”(概率分布)能为学生模型提供更丰富的信息,从而在保持较低成本的同时获得更好的性能。
  14. 推理优化 (并行方案, Speculative Decoding, 2022-2023): 针对模型部署(推理)阶段的优化同样重要。根据延迟和吞吐量需求选择不同的并行策略,以及使用“草稿”模型加速大型模型推理的 Speculative Decoding 技术,都有效提升了 AI 服务的效率。

Jeff Dean 总结道,AI 的进步是硬件、软件抽象、模型架构、训练算法、推理算法等多个层面协同创新的结果。

二、 集大成者:Gemini 的诞生与进化

正是基于上述众多突破,Google 推出了其旗舰级多模态 AI 模型系列——Gemini。

  • 项目启动与目标 (2023.02): 汇集 Google DeepMind、Google Research 及 Google 各部门的顶尖人才,目标是训练出世界领先的多模态模型,并应用于 Google 的所有产品。
  • 版本迭代:
    • Gemini 1.0 (2023.12)
    • Gemini 1.5 (2024.02): 引入超长上下文窗口(演示达 1000 万 token,API 提供 200 万 token),显著提升了信息处理能力和上下文学习能力,减少幻觉。
    • Gemini 2.0 (2024.12): 性能大幅提升(2.0 Flash ≈ 1.5 Pro),支持多模态实时流式处理。
    • Gemini 2.5 (2025.03): 当前最强版本 (Pro 已发布,Flash 即将推出),在多个权威排行榜(如 LMSYS Chatbot Arena, MathArena.ai 等)上名列前茅。
  • 核心特性:
    • 原生多模态: 从设计之初就能理解和处理文本、图像、音频、视频等多种信息。
    • 基于创新: 深度整合了 TPU、Pathways、Transformer、MoE、蒸馏等 Google 多年来的研究成果。
    • 性能卓越: 在理解、推理、编码、创意写作等多个维度展现出领先能力。
    • 优化前沿: 持续在质量/价格比的帕累托最优曲线上进行优化。

三、 揭秘幕后:大型 AI 项目的运作之道

构建像 Gemini 这样的尖端 AI 模型,不仅需要技术突破,还需要高效的组织和协作。Jeff Dean 分享了 Gemini 项目的一些运作经验:

  • 跨领域协作: 团队成员来自预训练、后训练、端侧模型、数据、基础设施、评估、代码库、安全、视觉、音频等多个核心领域和研究方向。
  • 全球化分布: 团队成员遍布旧金山湾区、伦敦、纽约、巴黎、苏黎世等地,需要克服时区挑战,利用好“黄金沟通时间”。
  • 高效沟通: 大量使用 Google Chat Spaces 进行信息共享,通过 RFC (Request for Comment) 机制获取反馈和同步进展。
  • 数据驱动决策: 依靠排行榜和通用基准来衡量进展,通过多轮、多尺度的实验迭代优化模型。
  • 应对挑战 (如 SDC): 在超大规模训练中,硬件可能出现“静默数据损坏”(Silent Data Corruption, SDC),即计算单元在不报错的情况下产生错误结果,并可能污染整个训练过程。Google 开发了 SDC 检测器,能够自动识别问题,将训练任务切换到备用机器,并将故障机器送修,保证训练的稳定性和正确性。

四、 AI 的惊人能力:当下能做什么?

Jeff Dean 通过几个生动的例子展示了当前 AI 模型的强大能力:

  • 小语种翻译 (Kalamang): 仅有约 130 人使用的印尼巴布亚地区语言 Kalamang,通过提供上下文示例(In-context learning),Gemini 能够实现与学习数月的人类相当的翻译水平。
  • 视频理解与摘要: 向 Gemini 1.5 Pro 展示一段包含多个体育史上标志性时刻的视频,它可以准确识别每个片段的运动项目、人物、年份,并总结其标志性意义,输出为结构化表格。这被誉为 Gemini 1.5 Pro 的“杀手级应用”。
  • 历史数据数字化: 利用 AI 从扫描的旧文档(如图表、手写记录)中提取结构化数据,极大地加速了历史资料的整理和研究。
  • 高级语言代码生成: 用户可以用自然语言描述需求(如“创建一个处理用户上传图片并进行特定处理的 Web 应用”),Gemini 2.5 Pro 能够生成相应的代码框架和逻辑。
  • 推理时间计算扩展: 通过在推理时投入更多计算(如 Gemini 的“Thinking”模式),可以进一步提升模型的回答质量和深度。

这些例子表明,AI 正在成为强大的信息处理、知识获取和创造力辅助工具。

五、 塑造未来:AI 赋能数十亿人的美好愿景

演讲的最后,Jeff Dean 将目光投向未来,探讨了如何引导 AI 向善,为社会带来积极影响。他介绍了与 John Hennessy、吴恩达夫人(Finale Doshi-Velez)等学者共同参与的“Shaping AI’s Impact on Billions of Lives”项目。该项目旨在通过有指导的研究和政策努力,最大化 AI 的益处,减少其风险。

项目提出了五条指导原则,其中两条尤为关键:

  1. 人机协作优于替代: AI 应专注于提升人类生产力,而非完全替代人类劳动。人机协作不仅能完成更复杂的任务,人类也能在 AI 偏离轨道时充当“护栏”。
  2. 关注需求弹性领域: 优先在需求弹性大的领域(如医疗、教育、编程)提升生产力,这样技术进步带来的效率提升会转化为更多的服务需求和就业机会,而非像农业(需求缺乏弹性)那样导致就业减少。

基于这些原则,项目为 AI 在关键领域的积极应用设定了具体的“公里碑 (Kilometerstones)”目标,并建议设立类似 XPRIZE 的奖项来激励进展:

  • 教育 AI 里程碑:全球导师 (Worldwide Tutor): 开发一个能适应不同语言、文化、学习风格的 AI 辅导工具,帮助教师应对差异化教学挑战,加速全球儿童的普及教育。
  • 医疗 AI 里程碑:广谱医疗 AI (Broad Medical AI): 整合图像、化验结果、病历、基因组学等多模态数据,辅助医生进行床边决策、患者离院后互动、起草考虑病史的影像报告等,并能解释其建议。
  • 信息 AI 里程碑:公民对话平台 (Civic Discourse Platform): 设计 AI 系统来调解在线对话,建议更具外交性的措辞,帮助社区从两极分化走向多元共识,甚至与持有阴谋论观点的人进行有效对话。
  • 科学 AI 里程碑:科学家的 AI 助手/合作者 (Scientist’s AI Aide/Collaborator): 加速科学发现,帮助科学家提出假说、自动化实验、追踪和总结与其研究相关的最新进展(个性化推送)。Google 的 Co-Scientist 项目已是早期尝试。

结语

从基础理论到尖端模型,从硬件突破到软件创新,再到对社会福祉的深切关怀,Jeff Dean 的演讲为我们描绘了一幅 AI 技术飞速发展、潜力无限,同时也需要被审慎引导的画卷。

AI 模型正变得日益强大和实用,它们将深刻改变医疗、教育、科研、媒体创作等众多领域,让专业知识和强大能力惠及更多人。正如 Jeff Dean 所言,如果我们能妥善引导,一个由 AI 辅助的未来,将是美好的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不再更新,请勿购买!!

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值