#Embodied_AI_Paper_List

全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能

具身智能是实现通用人工智能的必经之路,其核心是通过智能体与数字空间和物理世界的交互来完成复杂任务。近年来,多模态大模型和机器人技术得到了长足发展,具身智能成为全球科技和产业竞争的新焦点。然而,目前缺少一篇能够全面解析具身智能发展现状的综述。因此,鹏城实验室多智能体与具身智能研究所联合中山大学 HCP 实验室的研究人员,对具身智能的最新进展进行了全面解析,推出了多模态大模型时代的全球首篇具身智能综述。

该综述调研了近 400 篇文献,从多个维度对具身智能的研究进行了全面解析。该综述首先介绍了一些具有代表性的具身机器人和具身仿真平台,深入分析了其研究重点和局限性。接着,透彻解析了四个主要研究内容:1) 具身感知,2) 具身交互,3) 具身智能体和 4) 虚拟到现实的迁移,这些研究内容涵盖了最先进的方法、基本范式和全面的数据集。此外,该综述还探讨了数字空间和物理世界中具身智能体面临的挑战,强调其在动态数字和物理环境中主动交互的重要性。最后,该综述总结了具身智能的挑战和局限,并讨论了其未来的潜在方向。本综述希望能够为具身智能研究提供基础性参考,并推动相关技术创新。此外,该综述还在 Github 发布了具身智能 paper list,相关的论文和代码仓库将持续更新,欢迎关注。

  • 论文地址: https://arxiv.org/pdf/2407.06886
  • 具身智能 Paper List: https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List

1. 具身智能的前世今生

具身智能的概念最初由艾伦・图灵在 1950 年建立的具身图灵测试中提出,旨在确定智能体是否能显示出不仅限于解决虚拟环境(数字空间)中抽象问题的智能(智能体是具身智能的基础,存在于数字空间和物理世界中,并以各种实体的形式具象化,这些实体不仅包括机器人,还包括其他设备。),还能应对物理世界的复杂性和不可预测性。因此,具身智能的发展被视为一条实现通用人工智能的基本途径。深入探讨具身智能的复杂性、评估其当前的发展现状并思考其未来的发展轨迹显得尤为重要。如今,具身智能涵盖了计算机视觉、自然语言处理和机器人技术等多个关键技术,其中最具代表性的是具身感知、具身交互、具身智能体和虚拟到现实的迁移。在具身任务中,具身智能体必须充分理解语言指令中的人类意图,积极主动探索周围环境,全面感知来自虚拟和物理环境的多模态元素,并执行适当的操作以完成复杂任务。多模态模型的快速进展展示了在复杂环境中相较于传统深度强化学习方法更强的多样性、灵活性和泛化能力。最先进的视觉编码器预训练的视觉表示提供了对物体类别、姿态和几何形状的精确估计,使具身模型能够全面感知复杂和动态的环境。强大的大语言模型使机器人更好地理解人类的语言指令并为具身机器人对齐视觉和语言表示提供了可行的方法。世界模型展示了显著的模拟能力和对物理定律的良好理解,使具身模型能够全面理解物理和真实环境。这些进展使具身智能体能够全面感知复杂环境,自然地与人类互动,并可靠地执行任务。下图展示了具身智能体的典型架构。

51c大模型~合集12_AI

具身智能体框架

在本综述中,我们对具身智能的当前进展进行了全面概述,包括:(1)具身机器人 —— 具身智能在物理世界中的硬件方案;(2)具身仿真平台 —— 高效且安全地训练具身智能体的数字空间;(3)具身感知 —— 主动感知 3D 空间并综合多种感官模态;(4)具身交互 —— 有效合理地与环境进行交互甚至改变环境以完成指定任务;(5)具身智能体 —— 利用多模态大模型理解抽象指令并将其拆分为一系列子任务再逐步完成;(6)虚拟到现实的迁移 —— 将数字空间中学习到的技能迁移泛化到物理世界中。下图展示了具身智能从数字空间到物理世界所涵盖的体系框架。本综述旨在提供具身智能的全面背景知识、研究趋势和技术见解。

51c大模型~合集12_AI_02

本综述整体架构

2. 具身机器人

具身智能体积极与物理环境互动,涵盖了广泛的具身形态,包括机器人、智能家电、智能眼镜和自动驾驶车辆等。其中,机器人作为最突出的具身形态之一,备受关注。根据不同的应用场景,机器人被设计成各种形式,以充分利用其硬件特性来完成特定任务。如下图所示,具身机器人一般可分为:(1)固定基座型机器人,如机械臂,常应用在实验室自动化合成、教育、工业等领域中;(2)轮式机器人,因高效的机动性而闻名,广泛应用于物流、仓储和安全检查;(3)履带机器人,具有强大的越野能力和机动性,在农业、建筑和灾难场景的应对方面显示出潜力;(4)四足机器人,以其稳定性和适应性而闻名,非常适合复杂地形的探测、救援任务和军事应用。(5)人形机器人,以其灵巧手为关键,在服务业、医疗保健和协作环境等领域广泛应用。(6)仿生机器人,通过模拟自然生物的有效运动和功能,在复杂和动态的环境中执行任务。

51c大模型~合集12_AI_03

不同形态的具身机器人

3. 具身智能仿真平台

具身智能仿真平台对于具身智能至关重要,因为它们提供了成本效益高的实验手段,能够通过模拟潜在的危险场景来确保安全,具有在多样环境中进行测试的可扩展性,具备快速原型设计能力,能够为更广泛的研究群体提供便利,提供用于精确研究的可控环境,生成用于训练和评估的数据,并提供算法比较的标准化基准。为了使智能体能够与环境互动,必须构建一个逼真的模拟环境。这需要考虑环境的物理特性、对象的属性及其相互作用。如下图所示,本综述将对两种仿真平台进行分析:基于底层仿真的通用平台和基于真实场景的仿真平台。

51c大模型~合集12_AI_04

通用仿真平台

51c大模型~合集12_AI_05

基于真实场景的仿真平台

4. 具身感知

未来视觉感知的 “北极星” 是以具身为中心的视觉推理和社会智能。如下图所示,不同于仅仅识别图像中的物体,具有具身感知能力的智能体必须在物理世界中移动并与环境互动,这需要对三维空间和动态环境有更透彻的理解。具身感知需要具备视觉感知和推理能力,理解场景中的三维关系,并基于视觉信息预测和执行复杂任务。该综述从主动视觉感知、3D 视觉定位、视觉语言导航、非视觉感知(触觉传感器)等方面进行介绍。

51c大模型~合集12_AI_06

主动视觉感知框架

5. 具身交互

具身交互指的是智能体在物理或模拟空间中与人类和环境互动的场景。典型的具身交互任务包括具身问答和具身抓取。如下图所示,在具身问答任务中,智能体需要从第一人称视角探索环境,以收集回答问题所需的信息。具有自主探索和决策能力的智能体不仅要考虑采取哪些行动来探索环境,还需决定何时停止探索以回答问题,如下图所示。

51c大模型~合集12_AI_07

具身问答框架

除了与人类进行问答交互外,具身交互还涉及基于人类指令执行操作,例如抓取和放置物体,从而完成智能体、人类和物体之间的交互。如图所示,具身抓取需要全面的语义理解、场景感知、决策和稳健的控制规划。具身抓取方法将传统的机器人运动学抓取与大型模型(如大语言模型和视觉语言基础模型)相结合,使智能体能够在多感官感知下执行抓取任务,包括视觉主动感知、语言理解和推理。

51c大模型~合集12_AI_08

语言引导的交互式抓取框架

6. 具身智能体

智能体被定义为能够感知环境并采取行动以实现特定目标的自主实体。多模态大模型的最新进展进一步扩大了智能体在实际场景中的应用。当这些基于多模态大模型的智能体被具身化为物理实体时,它们能够有效地将其能力从虚拟空间转移到物理世界,从而成为具身智能体。为了使具身智能体在信息丰富且复杂的现实世界中运行,它们已经被开发出强大的多模态感知、交互和规划能力。如下图所示,为了完成任务,具身智能体通常涉及以下过程:

(1)将抽象而复杂的任务分解为具体的子任务,即高层次的具身任务规划。

(2)通过有效利用具身感知和具身交互模型,或利用基础模型的策略功能,逐步实施这些子任务,这被称为低层次的具身行动规划。

值得注意的是,任务规划涉及在行动前进行思考,因此通常在数字空间中考虑。相比之下,行动规划必须考虑与环境的有效互动,并将这些信息反馈给任务规划器以调整任务规划。因此,对于具身智能体来说,将其能力从数字空间对齐并推广到物理世界至关重要。

51c大模型~合集12_AI_09

基于多模态大模型的具身智能体框架

7. 虚拟到现实的迁移

具身智能中的虚拟到现实的迁移(Sim-to-Real adaptation)指的是将模拟环境(数字空间)中学习到的能力或行为转移到现实世界(物理世界)中的过程。该过程包括验证和改进在仿真中开发的算法、模型和控制策略的有效性,以确保它们在物理环境中表现得稳定可靠。为了实现仿真到现实的适应,具身世界模型、数据收集与训练方法以及具身控制算法是三个关键要素,下图展示了五种不同的 Sim-to-Real 范式。

51c大模型~合集12_AI_10

五种虚拟到现实的迁移方案

8. 挑战与未来发展方向

尽管具身智能发展迅速,但它面临着一些挑战,并呈现出令人兴奋的未来方向:

(1)高质量机器人数据集。获取足够的真实世界机器人数据仍然是一个重大挑战。收集这些数据既耗时又耗费资源。单纯依靠模拟数据会加剧仿真到现实的差距问题。创建多样化的真实世界机器人数据集需要各个机构之间紧密且广泛的合作。此外,开发更真实和高效的模拟器对于提高模拟数据的质量至关重要。为了构建能够在机器人领域实现跨场景和跨任务应用的通用具身模型,必须构建大规模数据集,利用高质量的模拟环境数据来辅助真实世界的数据。

(2)人类示范数据的有效利用。高效利用人类演示数据包括利用人类展示的动作和行为来训练和改进机器人系统。这个过程包括收集、处理和从大规模、高质量的数据集中学习,其中人类执行机器人需要学习的任务。因此,重要的是有效利用大量非结构化、多标签和多模态的人类演示数据结合动作标签数据来训练具身模型,使其能够在相对较短的时间内学习各种任务。通过高效利用人类演示数据,机器人系统可以实现更高水平的性能和适应性,使其更能在动态环境中执行复杂任务。

(3)复杂环境认知。复杂环境认知是指具身智能体在物理或虚拟环境中感知、理解和导航复杂现实世界环境的能力。对于非结构化的开放环境,目前的工作通常依赖预训练的 LLM 的任务分解机制,利用广泛的常识知识进行简单任务规划,但缺乏具体场景理解。增强知识转移和在复杂环境中的泛化能力是至关重要的。一个真正多功能的机器人系统应该能够理解并执行自然语言指令,跨越各种不同和未见过的场景。这需要开发适应性强且可扩展的具身智能体架构。

(4)长程任务执行。执行单个指令通常涉及机器人执行长程任务,例如 “打扫厨房” 这样的命令,包含重新排列物品、扫地、擦桌子等活动。成功完成这些任务需要机器人能够规划并执行一系列低级别动作,且持续较长时间。尽管当前的高级任务规划器已显示出初步的成功,但由于缺乏对具身任务的调整,它们在多样化场景中往往显得不足。解决这一挑战需要开发具备强大感知能力和大量常识知识的高效规划器。

(5)因果关系发现。现有的数据驱动的具身智能体基于数据内部的相关性做出决策。然而,这种建模方法无法使模型真正理解知识、行为和环境之间的因果关系,导致策略存在偏差。这使得它们难以在现实世界环境中以可解释、稳健和可靠的方式运行。因此,具身智能体需要以世界知识为驱动,具备自主的因果推理能力。

(6)持续学习。在机器人应用中,持续学习对于在多样化环境中部署机器人学习策略至关重要,但这一领域仍未被充分探索。虽然一些最新研究已经探讨了持续学习的子主题,如增量学习、快速运动适应和人机互动学习,但这些解决方案通常针对单一任务或平台设计,尚未考虑基础模型。开放的研究问题和可行的方法包括:1) 在最新数据上进行微调时混合不同比例的先前数据分布,以缓解灾难性遗忘,2) 从先前分布或课程中开发有效的原型,用于新任务的推理学习,3) 提高在线学习算法的训练稳定性和样本效率,4) 确定将大容量模型无缝集成到控制框架中的原则性方法,可能通过分层学习或慢 - 快控制,实现实时推理。

(7)统一评估基准。尽管有许多基准用于评估低级控制策略,但它们在评估技能方面常常存在显著差异。此外,这些基准中包含的物体和场景通常受到模拟器限制。为了全面评估具身模型,需要使用逼真的模拟器涵盖多种技能的基准。在高级任务规划方面,许多基准通过问答任务评估规划能力。然而,更理想的方法是综合评估高级任务规划器和低级控制策略的执行能力,特别是在执行长时间任务和衡量成功率方面,而不仅仅依赖于对规划器的单独评估。这种综合方法能够更全面地评估具身智能系统的能力。

总之,具身智能使智能体能够感知、认知并与数字空间和物理世界中的各种物体互动,显示了其在实现通用人工智能方面的重要意义。本综述全面回顾了具身机器人、具身仿真平台、具身感知、具身交互、具身智能体、虚拟到现实的机器人控制以及未来的研究方向,这对沿着促进具身智能的发展具有重要意义。

关于鹏城实验室多智能体与具身智能研究所

隶属鹏城实验室的多智能体与具身智能研究所汇聚了数十名智能科学与机器人领域顶尖青年科学家,依托鹏城云脑、中国算力网等自主可控 AI 基础设施,致力于打造多智能体协同与仿真训练平台、云端协同具身多模态大模型等通用基础平台,赋能工业互联网、社会治理与服务等重大应用需求。



#AutoAlign

彻底摒弃人工标注,AutoAlign方法基于大模型让知识图谱对齐全自动化

本工作由来自清华大学、墨尔本大学、香港中文大学、中国科学院大学的 Rui Zhang, Yixin Su, Bayu Distiawan Trisedya, Xiaoyan Zhao, Min Yang, Hong Cheng, Jianzhong Qi 等学者团队联合完成。该团队专注于大模型、知识图谱、推荐搜索、自然语言处理、大数据等方向的研究。

知识图谱作为结构化知识的重要载体,广泛应用于信息检索、电商、决策推理等众多领域。然而,由于不同机构或方法构建的知识图谱存在表示方式、覆盖范围等方面的差异,如何有效地将不同的知识图谱进行融合,以获得更加全面、丰富的知识体系,成为提高知识图谱覆盖度和准确率的重要问题,这就是知识图谱对齐(Knowledge Graph Alignment)任务所要解决的核心挑战。

传统的知识图谱对齐方法必须依赖人工标注来对齐一些实体(entity)和谓词(predicate)等作为种子实体对。这样的方法昂贵、低效、而且对齐的效果不佳。来自清华大学、墨尔本大学、香港中文大学、中国科学院大学的学者联合提出了一种基于大模型的全自动进行知识图谱对齐的方法——AutoAlign。AutoAlign彻底不需要人工来标注对齐的种子实体或者谓词对,而是完全通过算法对于实体语义和结构的理解来进行对齐,显著提高了效率和准确性。

  • 论文:AutoAlign: Fully Automatic and Effective Knowledge Graph Alignment enabled by Large Language Models,36 (6) TKDE 2024
  • 论文链接:https://arxiv.org/abs/2307.11772
  • 代码链接:https://github.com/ruizhang-ai/AutoAlign

模型介绍

AutoAlign 主要由两部分组成:

  • 用于将谓词(predicate)对齐的谓词嵌入模块(Predicate Embedding Module)。
  • 用于将实体(entity)对齐的实体嵌入学习部分,包括两个模块:属性嵌入模块 (Attribute Embedding Module)和结构嵌入模块(Structure Embedding Module)。

总体流程如下图所示:

51c大模型~合集12_AI_11

谓词嵌入模块:谓词嵌入模块旨在对齐两个知识图谱中代表相同含义的谓词。例如,将“is_in”和“located_in”进行对齐。为了实现这一目标,研究团队创建了一个谓词邻近图(Predicate Proximity Graph),将两个知识图谱合并成一个图,并将其中的实体替换为其对应的类型(Entity Type)。这种方式基于以下假设:相同(或相似)的谓词,其对应的实体类型也应相似(例如,“is_in”和“located_in”的目标实体类型大概率属于location或city)。通过大语言模型对类型的语义理解,进一步对齐这些类型,提高了三元组学习的准确性。最终,通过图编码方法(如TransE)对谓词邻近图的学习,使得相同(或相似)的谓词具有相似的嵌入,从而实现谓词的对齐。

具体实现上,研究团队首先构建谓词邻近图。谓词邻近图是一种描述实体类型之间关系的图。实体类型表示实体的广泛类别,可以自动链接不同的实体。即使某些谓词的表面形式不同(例如“lgd:is_in”和“dbp:located_in”),通过学习谓词邻近图,可以有效识别它们的相似性。构建谓词邻近图的步骤如下:

  • 实体类型提取:研究团队通过获取每个实体在知识图谱中的rdfs:type谓词的值来提取实体类型。通常,每个实体有多个类型。例如,德国(Germany)实体在知识图谱中可能有多个类型,如“thing”、“place”、“location”和“country”。在谓词邻近图中,他们用一组实体类型替换每个三元组的头实体和尾实体。
  • 类型对齐:由于不同知识图谱中的实体类型可能使用不同的表面形式(例如,“person”和“people”),研究团队需要对齐这些类型。为此,研究团队利用最新的大语言模型(如ChatGPT和Claude)来自动对齐这些类型。例如,研究团队可以使用Claude2来识别两个知识图谱中相似的类型对,然后将所有相似类型对齐为统一的表示形式。为此,研究团队设计了一套自动化提示词(prompt),能够根据不同的知识图谱进行自动化对齐词的获取。

为了捕捉谓词相似性,需要聚合多个实体类型。研究团队提出了两种聚合方法:加权和基于注意力的函数。在实验中,他们发现基于注意力的函数效果更好。具体而言,他们计算每个实体类型的注意力权重,并通过加权求和的方式获得最终的伪类型嵌入。接下来,研究团队通过最小化目标函数来训练谓词嵌入,使得相似的谓词具有相似的向量表示。

属性嵌入模块和结构嵌入模块:属性嵌入模块和结构嵌入模块都用于实体(entity)对齐。它们的思想和谓词嵌入相似,即对于相同(或相似)的实体,其对应的三元组中的谓词和另一个实体也应该具有相似性。因此,在谓词对齐(通过谓词嵌入模块)和属性对齐(通过 Attribute Character Embeding 方法)的情况下,我们可以通过TransE使相似的实体学习到相似的嵌入。具体来说:

  • 属性嵌入学习:属性嵌入模块通过编码属性值的字符序列来建立头实体和属性值之间的关系。研究团队提出了三种组合函数来编码属性值:求和组合函数、基于LSTM的组合函数和基于N-gram的组合函数。通过这些函数,我们能够捕捉属性值之间的相似性,从而使得两个知识图谱中的实体属性可以对齐。
  • 结构嵌入学习:结构嵌入模块基于TransE方法进行了改进,通过赋予不同邻居不同的权重来学习实体的嵌入。已对齐的谓词和隐含对齐的谓词将获得更高的权重,而未对齐的谓词则被视为噪声。通过这种方式,结构嵌入模块能够更有效地从已对齐的三元组中学习。
  • 联合训练:谓词嵌入模块、属性嵌入模块和结构嵌入模块这三个模块可以进行交替训练,通过交替学习的方式互相影响,通过优化嵌入使其在各个结构的表示中达到整体最优。训练完成后,研究团队获得了实体(entity)、谓词(predicate)、属性(attribute)和类型(type)的嵌入表示。最后,我们通过对比两个知识图谱中的实体相似性(如cosine similarity),找到相似性高的实体对(需要高于一个阈值)来进行实体对齐。

实验结果

研究团队在最新的基准数据集DWY-NB (Rui Zhang, 2022) 上进行了实验,主要结果如下表所示。

51c大模型~合集12_AI_12

AutoAlign在知识图谱对齐性能方面有显著提升,特别是在缺少人工标注种子的情况下,表现尤为出色。在没有人工标注的情况下,现有的模型几乎无法进行有效对齐。然而,AutoAlign在这种条件下依然能够取得优异的表现。在两个数据集上,AutoAlign在没有人工标注种子的情况下,相比于现有最佳基准模型(即使有人工标注)有显著的提升。这些结果表明,AutoAlign不仅在对齐准确性上优于现有方法,而且在完全自动化的对齐任务中展现了强大的优势。



#MoE

算法、系统和应用,三个视角全面读懂混合专家(MoE)

LLM 很强,而为了实现 LLM 的可持续扩展,有必要找到并实现能提升其效率的方法,混合专家(MoE)就是这类方法的一大重要成员。

最近,各家科技公司提出的新一代大模型不约而同地正在使用混合专家(Mixture of Experts:MoE)方法。

混合专家这一概念最早诞生于 1991 年的论文《Adaptive mixtures of local experts》,三十多年来已经得到了广泛的探索和发展。近年来,随着稀疏门控 MoE 的出现和发展,尤其是与基于 Transformer 的大型语言模型相结合,这种已有三十多年历史的技术焕发出了新的生机。

MoE 框架基于一个简单却又强大思想:模型的不同部分(称为专家)专注于不同的任务或数据的不同方面。

使用这一范式时,对于一个输入,仅有与之相关的专家(Expert)才会参与处理,这样一来便能控制计算成本,同时仍能受益于大量专业知识。因此,MoE 可在不大幅提升计算需求的前提下提升大语言模型的能力。

如图 1 所示,MoE 相关研究增长强劲,尤其是在 2024 年 Mixtral-8x7B 以及 Grok-1、DBRX、Arctic、DeepSeek-V2 等各种产业级 LLM 出现之后。


51c大模型~合集12_AI_13

这张图来自香港科技大学(广州)的一个研究团队近日发布的一篇 MoE 综述报告,其中清晰且全面地总结了 MoE 相关研究,并提出了一种全新的分类法,将这些研究归类到了算法、系统和应用三大类。

  • 论文标题:A Survey on Mixture of Experts
  • 论文地址:https://arxiv.org/pdf/2407.06204

混合专家的背景知识

在基于 Transformer 的大型语言模型(LLM)中,每个混合专家(MoE)层的组成形式通常是 𝑁 个「专家网络」{𝑓_1, ... , 𝑓_𝑁} 搭配一个「门控网络」G。

这个门控网络的形式通常是一个使用 softmax 激活函数的线性网络,其作用是将输入引导至合适的专家网络。MoE 层的放置位置是在 Transformer 模块内,作用是选取前向网络(FFN),通常位于自注意力(SA)子层之后。这种放置方式很关键,因为随着模型增大,FFN 的计算需求也会增加。举个例子,在参数量达到 5400 亿的 PaLM 模型中,90% 的参数都位于其 FFN 层中。

用数学形式描述的话:每个专家网络 𝑓_𝑖 (通常是一个线性 - ReLU - 线性网络)都由 W_𝑖 进行参数化,其接收同一输入 x 并生成输出 𝑓_𝑖 (x; W_𝑖)。同时,参数为 Θ 的门控网络 G(通常由一个线性 - ReLU - 线性 - softmax 网络构成)得到输出 G (x; Θ)。再根据门控函数的设计方式,可以将 MoE 层大致分为以下两类。


51c大模型~合集12_AI_14

密集 MoE

密集混合专家层是在每次迭代过程中激活所有专家网络 {𝑓_1, ... , 𝑓_𝑁}。早期的 MoE 研究普遍采用了这一策略。近段时间也有一些研究采用了密集 MoE,比如 EvoMoE、MoLE 、LoRAMoE 和 DS-MoE。图 2a 给出了密集 MoE 层的结构。因此,密集 MoE 层的输出可以表示成:


51c大模型~合集12_AI_15

其中,𝑔(x; Θ) 是 softmax 运算之前的门控值。

稀疏 MoE

尽管密集混合专家的预测准确度通常更高,但其计算负载也非常高。

为了解决这个问题,Shazeer et al. 的论文《Outrageously large neural networks: The sparsely-gated mixture-of-experts layer》引入了稀疏门控 MoE 层,其能在每次前向通过时仅激活选定的专家子集。该策略实现稀疏性的方式是计算 top-k 个专家的输出的加权和,而非将所有专家的输出聚合到一起。图 2b 展示了这种稀疏 MoE 层的结构。

根据上述论文提出的框架,可对 2.2 式进行修改以反映稀疏门控机制:


51c大模型~合集12_AI_16

这里解释一下:TopK (・, 𝑘) 函数是仅保留向量原始值的前 k 项,同时将其它项设置为 −∞。之后是 softmax 运算,所有 −∞ 项都会变成近似于零。超参数 k 要根据具体应用选取,常见选项是 𝑘 = 1 或 𝑘 = 2。加入噪声项 R_noise 是训练稀疏门控 MoE 层的一种常用策略,可促进专家之间的探索并提升 MoE 训练的稳定性。

尽管稀疏门控 G (x; Θ) 可在不增加相应计算成本的前提下显著扩展模型的参数空间,但也会导致负载平衡问题。负载平衡问题是指各专家的负载分布不均 —— 某些专家被频繁使用,而另一些专家则很少被使用甚至完全不上场。

为了解决这个问题,每个 MoE 层都要集成一个辅助损失函数,其作用是敦促每批次的 token 被均匀分配给各个专家。从数学形式描述来看,首先定义一个包含 T 个 token 的查询批次 B = {x_1 , x_2, ... , x_𝑇 } 以及 N 个专家。则对于其的辅助负载平衡损失定义为:


51c大模型~合集12_AI_17

其中 D_i 是分配给专家 i 的 token 比例,P_i 是分配给专家 i 的门控概率比例。为了确保该批次在 N 个专家之间均匀分布,应当最小化负载平衡损失函数 L_{load-balancing}。当每个专家都被分配了同等数量的 token D_𝑖 = 1/𝑁 和同等的门控概率 P_𝑖 = 1/𝑁 时,即达到最优条件:


51c大模型~合集12_AI_18

此时各专家的负载达到平衡。

在后文中,除非另有明确说明,则「MoE」这一术语单指「稀疏 MoE」。

混合专家的分类

为了帮助研究者在大量采用 MoE 的 LLM 研究中找到目标,该团队开发了一套分类方法,根据三个方面对这些模型进行了分类:算法设计、系统设计和应用。

图 3 展示了这种分类法以及一些代表性研究成果。


51c大模型~合集12_AI_19

下面将全面深入地介绍各类别的情况。

混合专家的算法设计

门控函数

门控函数(也被称为路由函数或路由器)是所有 MoE 架构的基础组件,其作用是协调使用专家计算以及组合各专家的输出。

根据对每个输入的处理方法,该门控可分为三种类型:稀疏式、密集式和 soft 式。其中稀疏式门控机制是激活部分专家,而密集式是激活所有专家,soft 式则包括完全可微方法,包括输入 token 融合和专家融合。图 4 展示了 MoE 模型中使用的各种门控函数。


51c大模型~合集12_AI_20

  • 稀疏式

稀疏门控函数在处理各个输入 token 时会激活被选中的部分专家,这可被视为一种形式的条件计算。

门控函数可以实现多种形式的门控决策,比如二元决策、稀疏或连续决策、随机或确定性决策;其已经得到了深入的研究,可使用各种形式的强化学习和反向传播来训练。

Shazeer et al. 的研究《Outrageously large neural networks: The sparsely-gated mixture-of-experts layer》开创性地提出了一种使用辅助负载平衡损失的可微分启发式方法,其中可根据选取概率对专家计算的输出进行加权。这为门控过程引入了可微性,由此可通过梯度来引导门控函数的优化。

后来,这一范式便成了 MoE 研究领域的主导范式。由于这种方法会针对每个输入 token 选择专家,因此可将其看作是 token 选择式门控函数。

以下为这一小节的要点,详见原论文:

  • token 选择式门控
  • 用于 token 选择式门控的辅助损失
  • token 选择式门控的专家容量
  • token 选择式门控的其它进展
  • 不可训练的 token 选择式门控
  • 专家选择式门控


51c大模型~合集12_AI_21

  • 密集式

密集 MoE 是指处理每个输入时都激活所有专家。

虽然稀疏 MoE 有效率方面的优势,但密集 MoE 方向依然在不断迎来创新。尤其值得一提的是,密集激活在 LoRA-MoE 微调方面表现很好,并且 LoRA 专家的计算开销相对较低。这种方法能够有效灵活地集成多个 LoRA 以完成各种下游任务。这能保留原始预训练模型的生成能力,同时保留各个 LoRA 针对各个任务的独有特性。

  • soft 式

对稀疏 MoE 来说,一大基本离散优化难题是如何决定为每个 token 分配哪些合适的专家。为了确保专家能平衡地参与并尽可能减少无分配 token,这通常必须启发式的辅助损失。在涉及分布外数据的场景(比如推理批次小、有全新输入或迁移学习)中,这个问题尤其显著。

类似于密集 MoE,soft MoE 方法在处理每个输入时也会使用所有专家,从而维持完全可微性,进而避免离散专家选择方法的固有问题。soft MoE 与密集 MoE 的不同在于前者会通过对输入 token 或专家进行门控加权的融合来缓解计算需求。

专家

这一节会介绍 MoE 框架内专家网络的架构,并会讨论协调这些专家的激活的门控函数。

  • 网络类型

自从 MoE 被整合到 Transformer 架构中以来,其通常会替代这些模型中的前向网络(FFN)模块。通常来说,MoE 层中的每个专家都会复制其替换的 FFN 的架构。

这种将 FFN 用作专家的范式到现在依然是主流,但人们也对此做了不少改进。

  • 超参数

稀疏 MoE 模型的规模由几个关键超参数控制,包括:

  • 每个 MoE 层的专家数量
  • 每个专家的大小
  • MoE 层在整个模型中的放置频率

这些超参数的选择至关重要,因为它会深刻影响模型在各种任务中的性能和计算效率。因此,要根据特定的应用要求和计算基础设施来选择最佳超参数。表 2 给出了一些使用 MoE 的模型的配置情况。


51c大模型~合集12_AI_22

另外,表 3 列举了一些近期的开源模型的参数数量和基准性能。


51c大模型~合集12_AI_23

  • 激活函数

基于密集 Transformer 架构构建的稀疏 MoE 模型采用了与 BERT、T5、GPT 和 LLAMA 等领先的密集 LLM 类似的激活函数。激活函数已经从 ReLU 发展出了 GeLU、GeGLU、SwiGLU 等更先进的选择。

这一趋势也扩展到了 MoE 模型的其它组件,它们经常整合均方根层归一化(RMSNorm)、分组查询注意力(GQA)和旋转位置嵌入(RoPE)等技术。

  • 共享专家

DeepSpeed-MoE 创新性地引入了残差 MoE(Residual-MoE)架构,其中每个 token 都由一个固定专家外加一个门控选择的专家进行处理,实现了每一层都有两个专家参与处理,同时也不会让通信成本超过 top-1 门控方法。这种方法是把门控选择的 MoE 专家当作是固定密集 FFN 的纠错辅助。

NLLB 中使用的条件式 MoE 路由(CMR/Conditional MoE Routing)也采用了类似的方法,将密集 FFN 和 MoE 层的输出组合起来使用。

将固定 FFN 和稀疏 MoE 整合起来的范式通常被称为共享专家,如图 5b 所示。


51c大模型~合集12_AI_24

近期有 DeepSeekMoE、OpenMoE、Qwen1.5-MoE 和 MoCLE 等模型采用这一范式,表明其正在成为一种主流配置。不过 DeepSeekMoE 和 Qwen1.5-MoE 采用了多个共享专家,而不是单个。

混合参数高效型专家

参数高效型微调(PEFT)是一种提升微调效率的方法。简单来说,PEFT 就是在微调时仅更新基础模型的一小部分参数。

PEFT 很成功,但由于其可训练的参数有限以及可能存在的灾难性遗忘问题,该方法难以用于需要泛化到多个任务的情况。

为了缓解这些局限,混合参数高效型专家(MoPE)诞生了,其将 MoE 框架与 PEFT 整合到了一起。MoPE 集成了 MoE 的门控机制与多专家架构,同时每个专家都使用了 PEFT 技术进行构建。这种巧妙的组合能极大提升 PEFT 在多任务场景中的性能。此外,由于使用了 PEFT 来构建专家,因此 MoPE 使用的参数也更少,资源效率比传统 MoE 模型高得多。

MoPE 融合了 MoE 的多任务特性与 PEFT 的资源效率,是一个极具前景的研究方向。图 6 根据在 Transformer 模型架构中的位置对 MoPE 进行了分类。至于 MoPE 方面更详细的研究成果介绍,请参看原论文。


51c大模型~合集12_AI_25

训练和推理方案

混合专家在进步发展,相关的训练和推理方案也在进步发展。

初始的训练和推理方案需要从头开始训练 MoE 模型,直接采用训练的模型配置来执行推理。

但现在,MoE 模型的训练和推理方面已经出现了许多新范式,包括组合密集模型和稀疏模型的优势实现取长补短。


51c大模型~合集12_AI_26

图 7 展示了与 MoE 相关的训练和推理方案,可以看到新出现的方案可分为三类:

  • 密集到稀疏:从密集模型训练开始,逐步过渡到稀疏 MoE 配置;
  • 稀疏到密集:涉及到将稀疏 MoE 模型降格为密集形式,这有利于将推理实现为硬件形式;
  • 专家模型融合:将多个预训练密集专家模型整合成一个统一的 MoE 模型。

MoE 的衍生技术

混合专家(MoE)启发了许多不同的变体技术。举个例子,Xue et al. 的论文《Go wider instead of deeper》提出了模型宽度增大的 WideNet,其做法是将前向网络(FFN)替换成 MoE 层,同时维持 Transformer 层上的共享可训练参数,但归一化层除外。

另外还有 Tan et al. 提出的 SYT(稀疏通用 Transformer)、Antoniak et al. 提出的 MoT(混合 token)、Choi et al. 提出的 SMoP(稀疏混合提词)、Chen et al. 提出的 Lifelong-MoE、Raposo et al. 提出的 MoD(混合深度)等。

总结一下,MoE 衍生技术的发展揭示了一个趋势:MoE 的功能越来越多,越来越能适应不同的领域。

混合专家的系统设计

混合专家(MoE)虽然能增强大型语言模型的能力,但也带来了新的技术挑战,因为其具有稀疏且动态的计算负载。

GShard 引入了专家并行化(expert parallelism),可根据专家能力的负载平衡限制来调度切分后的局部 token,从而实现并行的门控和专家计算。该范式已经成为促进 MoE 模型高效扩展的基础策略。我们可以将该方法看作是增强版的数据并行化 ——MoE 层中的每个专家都被分配到一台不同设备,同时所有设备上都重复配备所有非专家层。

如图 8a 所示,专家并行化的工作流程是按顺序执行以下操作:门路由、输入编码、All-to-All 调度、专家计算、All-to-All 组合、输出解码。


51c大模型~合集12_AI_27

一般来说,GEMM 的输入大小需要足够大,以便充分利用计算设备。因此,要使用输入编码将同一个专家的输入 token 聚合到连续的内存空间中,这由门路由中的「token - 专家映射」决定。之后,All-to-All 调度的作用是将输入 token 分发给各设备上对应的专家。之后是专家的本地化计算。计算完成后再通过 All-to-All 组合汇总,然后解码输出,根据门控索引恢复原始数据的布局。

此外,也有研究者探索专家并行化与其它已有并行策略(比如张量、管道化、序列并行化)的协同,以提升 MoE 模型在大规模分布式环境中的可扩展性和效率。

图 8 中给出了一些混合并行化示例,包括 (b) 数据 + 专家 + 张量并行化、(c) 数据 + 专家 + 管道并行化、(d) 专家 + 张量并行。

需要认识到,计算效率、通信负载、内存占用之间存在复杂的相互作用,分布式并行化策略的选择会对其产生影响,并且也会被不同的硬件配置影响。因此,在部署用于实际应用的策略时,必须细致地权衡考虑并针对具体场景进行调整。

之后,该团队分计算、通信和存储三大板块介绍了 MoE 模型开发所面临的系统设计难题以及解决这些难题的研究成果,详见原论文。表 4 给出了开源 MoE 框架的概况。


51c大模型~合集12_AI_28

混合专家的应用

在当前 Transformer 主导的大型语言模型(LLM)领域,混合专家(MoE)范式颇具吸引力,因为其能在不给训练和推理阶段引入过大计算需求的前提下大幅提升模型能力。这类技术能显著 LLM 在多种下游任务上的性能,甚至造就了一些超越人类水平的 AI 应用。

有传言说强大如斯的 GPT-4 可能也采用了某种 MoE 架构 —— 由 8 个 2200 亿参数的专家构成,在多样化的数据集和任务上完成了训练,并使用了一种 16 次迭代的推理过程。

所以,毫不奇怪 MoE 在自然语言处理、计算机视觉、推荐系统和多模态应用中遍地开花了。

这些应用本质上就需要使用条件计算来大幅提升模型的参数量,以此增强模型在固定计算成本下的性能,或通过门控机制实现动态专家选择来实现高效多任务学习。

该团队也介绍了这些不同领域的代表性 MoE 应用,可帮助读者理解如何将 MoE 用于具体任务。详见原论文。

挑战与机遇

混合专家,功能强大,降低成本,提升性能。前景虽好,仍有挑战。

这一节中,该团队梳理了 MoE 相关的关键性挑战,并指出了有希望获得重要成果的未来研究方向。下面简要列出了这些挑战和研究方向,更多详情请查看原论文。

  • 训练稳定性和负载平衡
  • 可扩展性和通信开销
  • 专家的专业化和协作
  • 稀疏激活和计算效率
  • 泛化和稳健性
  • 可解释性和透明性
  • 最优的专家架构
  • 与现有框架整合



#清影

智谱AI杀入视频生成「清影」上线,时长6秒,免费不限量

智谱大模型团队自研打造。

自从快手可灵 AI 火爆海内外,国内视频生成也如同 2023 年的文本大模型一样,越来越卷了。

刚刚,又一视频生成大模型产品宣布正式上线:智谱 AI 正式发布「清影」。只要你有好的创意(几个字到几百个字),再加上一点点耐心(30 秒),「清影」就能生成 1440x960 清晰度的高精度视频。

即日起,清影上线清言 App,所有用户都可以全方位体验对话、图片、视频、代码和 Agent 生成功能。除了覆盖智谱清言的网页端和 App,你也可以在「AI 动态照片小程序」上进行操作,快速为手机里的照片实现动态效果。


51c大模型~合集12_AI_29

智谱「清影」生成的视频时长有 6 秒,清晰度达到 1440×960,所有用户均可以免费使用。

  • PC 端访问链接:https://chatglm.cn/
  • 移动端访问链接:https://chatglm.cn/download?fr=web_home

智谱 AI 表示,随着技术的不断发展,「清影」的生成能力很快将可以用于短视频制作,广告生成甚至电影剪辑等工作中。

在生成式 AI 视频模型的研发中,Scaling Law 继续在算法和数据两方面发挥作用。「我们积极在模型层面探索更高效的 scaling 方式。」在智谱 Open Day 上,智谱 AI CEO 张鹏表示:「随着算法、数据不断迭代,相信 Scaling Law 将继续发挥强有力作用。」

拿捏各种风格

从目前的一些 Demo,以及简单试用的情况看来,智谱 AI 的「清影」具有如下特点:

  • 在风景、动物、科幻、人文历史等类型的视频内容上生成的表现较好;
  • 擅长生成的视频风格包括卡通风格、真实摄影风格、二次元动漫风格等;
  • 实体类型呈现效果上看,动物 > 植物 > 物品 > 建筑 > 人物。

它既可以文字生成视频,也可以完成图生视频,生成的风格覆盖奇幻动画风格。

文生视频

提示词:低角度向上推进,缓缓抬头,冰山上突然出现一条恶龙,然后恶龙发现你,冲向你。好莱坞电影风。

51c大模型~合集12_AI_30

提示词:一个法师正在海浪中施展法术,宝石将海水都聚集过来,打开了一道魔法传送门。

51c大模型~合集12_AI_31

提示词:蘑菇变成小熊。

51c大模型~合集12_AI_32

到真实景物:

提示词:在一片森林中,人视,参天大树遮蔽着太阳,树叶的缝隙中洒下一些阳光,丁达尔效应。

51c大模型~合集12_AI_33

提示词:一只水豚鼠像人一样站立着,手里拿着冰激凌,开心得吃起来。

51c大模型~合集12_AI_34

图生视频

除了文本生成视频,也可以到清影上玩图片生成视频。图生视频带来了更多的新玩法,包括表情包梗图、广告制作、剧情创作、短视频创作等。同时,基于清影的「老照片动起来」小程序也会同步上线,只需一步上传老照片,AI 就能让凝练在旧时光中的照片灵动起来。

提示词:一条自由移动的七彩鱼。

51c大模型~合集12_AI_35

提示词:图中男子站起来,风吹着他的头发。

51c大模型~合集12_AI_36

提示词:小黄鸭玩具漂浮在游泳池的水面,特写。

51c大模型~合集12_AI_37

再到现代艺术:

提示词:摄像机围绕着一大堆老式电视旋转,这些电视播放着不同的节目 ——20 世纪 50 年代的科幻电影、恐怖电影、新闻、静态、70 年代的情景喜剧等,背景设在纽约博物馆的一个大型画廊里。

51c大模型~合集12_AI_38

提示词:掏出一个苹果手机拍照。

51c大模型~合集12_AI_39

无提示词。

51c大模型~合集12_AI_40

你常用的表情包,智谱 AI 能把它延长成「连续剧」。

提示词:师徒四人伸出手互相击掌,脸上是困惑的表情。

提示词:小猫张大了嘴,脸上是困惑表情,很多问号。

可以看出,清影各类风格都可以拿捏,还有更多的玩法等待人们来发掘。只需要在智谱清言 PC/APP 上,点击「清影智能体」功能,就可以让你的每一个创意在瞬间化为现实。

全自研技术

All in 大模型的智谱 AI,很早就开始部署多模态生成式 AI 模型。从 2021 年开始,智谱 AI 先后发布了 CogView(NeurIPS’21)、 CogView2(NeurIPS’22)、CogVideo(ICLR’23)、Relay Diffusion(ICLR’24)、CogView3 (2024)等多项研究。

据介绍,「清影」依托于智谱 AI 大模型团队自研打造的新一代视频生成大模型 CogVideoX。

去年 11 月,其团队基于文生图模型 CogView2 打造出了文本到视频生成模型 CogVideo,并随后将其开源。

51c大模型~合集12_AI_41

CogVideo 拥有 94 亿参数,它通过 CogView2 生成一系列初始帧,基于双向注意力模型对图像进行插帧的方法实现视频生成。此外,CogVideo 根据文本描述生成 3D 环境,可直接利用预训练模型,避免了昂贵的训练,它也支持中文的 Prompt 输入。

本次清影底座的视频生成模型是 CogVideoX,它能将文本、时间、空间三个维度融合起来,参考了 Sora 的算法设计,它也是一个 DiT 架构,通过优化,CogVideoX 相比前代(CogVideo)推理速度提升了 6 倍。

OpenAI 的 Sora 横空出世,让 AI 在视频生成方面取得了显著进展,但大多数模型在生成具有连贯性和逻辑一致性的视频内容方面仍然存在困难。 

为了解决这些问题,智谱 AI 自研了一个高效的三维变分自编码器结构(3D VAE),可以将原视频空间极致压缩到 2%,使得模型训练成本大幅下降,训练难度也大大降低。

模型结构采用因果三维卷积(Causal 3D convolution)为主要模型组件,并将自编码器中常用的注意力模块移除,使得模型具备不同分辨率迁移使用的能力。

同时,在时间维度上因果卷积使得模型视频编解码具备从前向后的序列独立性, 这有助于通过微调将模型扩展到更高帧率和更长时间的场景。 

除此以外,视频生成还面临这样一个问题,即视频数据大多缺乏对应的描述性文本或者描述质量低下,为此智谱 AI 自研了一个端到端的视频理解模型,用于为海量的视频数据生成详细的、贴合内容的描述,进而构建海量的高质量视频文本对,使得训练出的模型指令遵循度高。

最后值得一提的是,智谱 AI 自研了一个将文本、时间、空间融合起来的 transformer 架构,该架构没有采用传统 cross attention 模块,而是在输入阶段就将文本嵌入和视频嵌入连接起来,以便更充分地进行两种模态的交互。

然而文本和视频特征空间存在很大差异,智谱 AI 通过 expert adaptive layernorm 对两者分别进行处理,使得模型能够高效利用参数来更好地将视觉信息与语义信息对齐。

智谱 AI 表示,通过优化技术,智谱 AI 生成式视频模型的推理速度提升了 6 倍。目前生成 6s 视频,模型花费的理论时间是 30 秒钟。

如今随着「清影」的上线,视频生成赛道又出现了智谱 AI 这位重磅玩家。

除了人人都能尝试的应用之外,清影 API 也同步上线大模型开放平台 bigmodel.cn,企业和开发者可以通过调用 API 的方式,体验和使用文生视频以及图生视频的模型能力。

随着各家公司 AI 视频生成功能的不断上线,今年的生成式 AI 竞赛已经进入白热化阶段。对于大多数用户来说,选择也更多了:现在,无论是完全没有视频制作基础的人,还是专业的内容创作者,都能借助大模型能力实现视频创作。



#AI学习搭子

B站AI课几秒出总结,划词就给解释,这个「AI学习搭子」真香

在 ChatGPT 走红之后,本着「打不过就加入」的心态,很多职场人学起了 AI。但遗憾的是,不少人走了弯路,甚至还被某些「199」的课程割了韭菜。

其实,学 AI 这事儿并不难。读文章、看视频、啃论文都是很好的学习方式。

当然,还是有不少读者吐槽,学 AI 就像当年学英语一样,总会遇到一些让人头疼的「生词」,读论文比做阅读理解还麻烦,视频课程也不知道哪个适合自己,浪费了不少时间。

AI 学习路上遇到的这些「绊脚石」,皆因你缺少一个学习搭子。

有人可能在第一句就卡住了:AlphaGo 是什么?别着急,只要轻轻一划,学习搭子就给解释得明明白白。

学到一定程度要读英文论文,但英语水平一般?别着急,这个搭子不仅会翻译,还随时等着你提问。

网上的学习视频五花八门,不知道应该选哪个?没关系,先让学习搭子总结一下。

怎么样,用上这个学习搭子,AI 学习之路是不是顺畅多了?

这就是我们最近发现的一个学习、工作神器 —— 豆包电脑版

接下来,就来揭秘一下这款提效神器是怎么帮我们学习 AI 的吧。

在 B 站白嫖的课,还能有助教?  

对于大部分 AI 初学者来说,看视频是最快速的入门方式。在这方面,B 站可以说是 AI 爱好者的「天堂」,网罗了众多学习资源,例如宝可梦大师李宏毅、江湖人称「沐神」的李沐录制的学习视频,随便一扒拉就能找到。

但是,找到并不意味着适合。很多视频其实有一定难度,需要有点编程和数学基础才能听懂。不少初学者可能接连点开十几个视频,经历了满满的挫败感、浪费了几个小时后才找到适合自己的。

编辑部新同学在学 AI 的时候也遇到这个问题。所以,当发现豆包电脑版的「AI 看 B 站」功能时,大家如获至宝。

以李宏毅最近开设的《生成式人工智能导论》这门课为例,在点开之前,我们还担心,这门课会不会要求很高。结果,看了豆包总结的第一讲概要,这种顾虑就打消了。

为了进一步确认,我们还向豆包发起了一轮追问:   

既然门槛不高,那就学学看。不过,学习总要做笔记,打工人看视频的时间本身就是挤出来的,压根没时间慢慢整理。

在看到第二讲时,我们发现,这个活儿,豆包就能干。它不仅能整理出每堂课的要点,甚至连脑图都能画出来。要知道,李宏毅老师操着一口浓重的台湾腔,豆包竟也能总结得如此精准,这多少有点出人意料。

也许会有人说,前面讲的内容过于简单,课程总共 26 个小时,为了节省时间,我只想看我没学过的。豆包电脑版让这事儿变得 so easy,因为无论是「原网页」模式,还是「AI 看视频」模式,它都有按照时间轴排列的局部总结,直接点感兴趣的部分就可以挑着看。

不过有时候,这些总结可能解答不了我们的疑问,或者老师讲的某个概念我们没听过。这要搁以前,我们需要切换网页,比如打开 ChatGPT 查一查,弄懂之后再切回来。看一个视频,往往要在各种网页间反复横跳。

在豆包电脑版里,这些问题都可以在一个界面里解决,因为它有一个「在聊天中继续」的功能,可以边看视频边提问,就像听那种配置了助教的网课一样,不管问什么都有人回应你。

我们还用这个工具尝试了一下李沐的课程,效果一样丝滑:

总的来说,以前在 B 站看 AI 视频,在搜出符合条件的课程之后非常迷茫,不知道看哪个,而且看完满脑子问号。现在用豆包看,花几秒钟就能了解个大概,而且看的过程中,问题也能解决个七七八八,学习效率蹭蹭往上提。喜欢看视频学习的小伙伴可以试试这个功能。

读 AI 文章不卡壳,哪里不懂划哪里

看视频入了门,再读几篇文章巩固一下学习成果是最好的。不过,很多读者反映,读文章时总遇到一些麻烦,比如每读几句就有一个词不知道什么意思,就像当年在考场上做英语阅读理解一样。要是有个类似「词典笔」的东西就 perfect。

在豆包电脑版上,这个「词典笔」还真有,就是你的鼠标。读到哪段,只需要用鼠标轻轻一划,豆包的工具栏就出来了。而且,根据我们的实测,这个功能不限制浏览器。也就是说,无论你在哪个浏览器上看文章,都能通过「划词」把豆包调出来,它如同内置在你的系统中一样。

初学 AI,被各种专业名词搞得云山雾罩,有招!继续划词,点「解释」或「搜索」。

英语不过关,看不懂文章中引用的原文,还是划词,点「翻译」。

文章中间某个版块太长,没时间慢慢看。那就整个板块都划一下,然后点「总结」,原文中的亮点、精华就条分缕析地摆了出来。

在探索过程中,我们还发现,这个工具栏其实是自定义的,你可以把自己常用的几个功能放在优先位置。

如果要说用上该功能的总体感觉,那就是,原来读文章,读几段就犯迷糊,有些地方不懂也懒得查,因为网页切换是个分散精力的事情。现在,有了这个「词典笔」一样的划词功能,读一篇文章学到的东西比以往读好几篇都多,这是之前使用其他单独的 AI 大模型不曾有过的体验。

身兼翻译和顾问,「AI 伴读」陪你读论文

入门视频、文章看得差不多了,如果还想在 AI 之路上进阶,就得在论文里「历劫」。

众所周知,AI 论文是出了名的难啃,不仅篇幅长得吓人,还是全英文,其中穿插着各种不明觉厉的图表。AI 学习者光瞅着这些密密麻麻的英文单词,热情就消了一半。

巧了,豆包电脑版搞了个 AI 伴读模式,经过一段时间的试用,我们发现它对搞定论文有「奇效」。

以 Meta 最新发布的 Llama 3 论文为例,我们把它丢给豆包,并启用「AI 伴读」模式,全文对照翻译「哗」一下就出来了。所以说,这年头想学 AI,英语不过关也不是什么大事。

不过,这篇论文总共有 92 页,即使读中文翻译,一时半会儿也读不完。好在,豆包就在侧边栏候着,等着你给它分配任务,比如总结论文要点。

对于总结中没有涵盖的细枝末节,你也不需要瞪大眼睛找,直接问豆包就行。

有些人不喜欢看论文描述,只关心模型跑分,那就把整个页面调成图表模式,感兴趣的图表一键直达。

按照这种方式,资深 AI 研究者一天读个十几篇论文也是洒洒水而已。

在豆包里写博客,不用对着一个空白文档发呆

读完论文,很多 AI 学习者有将其写成博客的习惯,这既是一种对学习成果的巩固,也是一种传播知识的有效方式。

不过,我们观察到,很多高质量博客的博主更新频率较低。这可能是因为写博客非常占用时间,构思框架、填充细节都相当繁琐;又或许是有表达欲望,但面对一片空白的文档,发一会儿呆之后就放弃了。

安上豆包后,这个情况也许会有所改善。因为我们发现,豆包不仅能出大纲,还承包了写作、润色、配图等多项工作,可以让博客作者专注于思想的传达,而不是一些细枝末节。

还是以 Llama 3 的论文为例,我们把它喂给豆包,让它构思个大纲。为了重点突出,我们还把 prompt 限制了一下,豆包也遵循了我们的指示。

文章骨架支棱起来,接下来就是填充「血肉」。为了让豆包获取最新最准确的消息,我们在 prompt 中要求启用「深度搜索」功能,然后根据上述大纲分段写作。

担心文章有 AI 味?豆包的划词功能再度「出山」,哪里不满意划哪里。比如信息增量太少,就使用划词扩写功能。

要是嫌语言干干巴巴,我们还可以使用划词的自定义功能,让它写得通俗易懂一些。

搞定了文字部分,下一步就是配图啦。

豆包电脑版的「图像生成」功能主打一个贴心,官方给出了「人像摄影」、「艺术」、「国风插画」等 7 个风格标签,同时提供一大堆图像实例,甚至还附上了提示词。

我们让它画一幅「机器人在看书」的画作,风格为 3D。来瞅瞅效果:

此外,它还能上传参考图。例如,我们上传一张带有未来科技风格的人形机器人,输入提示词后,一次就能得到 4 张类似插图。

再上效果:

至此,一篇关于开源 AI 模型 Llama3 的博客文章就完事了。

要是有朋友觉得这样麻烦,也可以启用豆包电脑版的「帮我写作」功能,34 种体裁和风格随便选,什么公众号文章、论文、报告、微博、小红书…… 它都能玩转。

举个例子,我们写一篇关于 Llama3.1 的微博,只要告诉它主题和参考信息,它就能把语言自动转换成微博风,就连表情包、标签都生成好了,只等你一键复制到微博。

整套流程走下来,豆包电脑版确实能给想写点 AI 知识性内容的同学省出不少时间。

网友:豆包就像一个带 AI 功能的操作系统

豆包电脑版一出,不少网友前去尝鲜。

有网友表示,豆包野心不小,也整起了浏览器,甚至可以说是一个带 AI 功能的操作系统。

还有网友种草了「AI 看 B 站」功能,要把它焊死在小破站上。

当然,罗马不是一日建成的。

2023 年 6 月,字节开始测试代号 Grace 的 AI 对话项目,彼时,云雀大模型还未出世。

8 月份,字节发布自研的云雀大模型,并搭上了国内大模型产品备案的首班车,同时还将 Grace 更名为「豆包」,正式进行公测。

经过大半年的蛰伏,在今年 5 月中旬的火山引擎原动力大会上,豆包传来了新消息 ——字节跳动给云雀大模型也改了个名,统一叫「豆包」大模型,还一口气发布了 9 个大模型产品,涵盖通用模型、角色扮演、语音识别、文生图等多个领域。