#Claude上线LaTeX公式渲染功能
当 ChatGPT 老早就支持使用 LaTeX 语言输入和显示数学公式时,Claude 现在终于补上了这一功能。
在论文、书籍、报告或幻灯片中,我们有时需要插入数学公式或符号。其中使用 LaTeX 语言来生成数学公式或符号是主要方式之一,这就是所谓的 LaTeX 公式渲染,通过简单的命令来实现复杂的数学表达式。
对于大语言模型来说,它们在解答一些数学相关的问题时有时也需要输出数学方程式或表达式。这时如果能够使用 LaTeX 输出标准的公式,答案自然会更加清晰明了。
以大模型初创公司 Anthropic 的 Claude 为例,有人表示自己没有成为 Claude Pro 会员的唯一原因是它不支持 LaTeX 渲染。
或许是听到了这些人的心声,今天 Claude(3.5 Sonnet)终于添加了 LaTeX 渲染功能预览,从而能够以一致的格式显示数学方程式和表达式。
LaTeX 渲染的功能界面如下所示:
我们可以先看下面这个官方示例,「让 Claude 展示并简单地解释高斯积分、巴塞尔问题解和正弦的小角度近似。」
机器之心也试用了一下 Claude 3.5 Sonnet,下面为未开启 LaTeX(图左)与开启 LaTeX(图右)功能的方程式效果对比。
各路网友纷纷表示,LaTeX 渲染功能是众望所归,尤其是对需要处理数学或科学记号表示的用户助益很大。
#All Robots in One
总说具身智能的数据太贵,鹏城实验室开源百万规模标准化数据集
该论文作者来自于鹏城实验室多智能体与具身智能研究所及南方科技大学、中山大学的师生团队,包括林倞教授(研究所所长,国家杰青,IEEE Fellow),郑锋教授,梁小丹教授,王志强(南科大),郑浩(南科大),聂云双(中大),徐文君(鹏城),叶华(鹏城)等。鹏城实验室林倞教授团队致力于打造多智能体协同与仿真训练平台、云端协同具身多模态大模型等通用基础平台,赋能工业互联网、社会治理与服务等重大应用需求。
今年以来,具身智能正在成为学术界和产业界的热门领域,相关的产品和成果层出不穷。今天,鹏城实验室多智能体与具身智能研究所(以下简称鹏城具身所)联合南方科技大学、中山大学正式发布并开源其最新的具身智能领域学术成果 ——ARIO(All Robots In One)具身大规模数据集,旨在解决当前具身智能领域所面临的数据获取难题。
论文题目:All Robots in One: A New Standard and Unified Dataset for Versatile.General-Purpose Embodied Agents
论文链接:http://arxiv.org/abs/2408.10899
项目主页:https://imaei.github.io/project_pages/ario/
鹏城实验室具身所网站链接:https://imaei.github.io/
作为具身机器人的大脑,想要让具身大模型的性能更优,关键在于能否获得高质量的具身大数据。不同于大语言模型或视觉大模型用到的文本或图像数据,具身数据无法从互联网海量内容中直接获取,而需通过真实的机器人操作来采集或高级仿真平台生成,因此具身数据的采集需要较高的时间和成本,很难达到较大的规模。
同时,当前开源的数据集也存在多项不足,如上表所示,JD ManiData、ManiWAV 和 RH20T 本身数据量不大,DROID 数据用到的机器人硬件平台比较单一,Open-X Embodiment 虽然达到了较大规模的数据量,但其感知数据模态不够丰富,而且子数据集之间的数据格式不统一,质量也参差不齐,使用数据之前需要花大量时间进行筛选和处理,难以满足复杂场景下具身智能模型的高效率和针对性的训练需求。
相比而言,此次发布的 ARIO 数据集,包含了 2D、3D、文本、触觉、声音 5 种模态的感知数据,涵盖操作和导航两大类任务,既有仿真数据,也有真实场景数据,并且包含多种机器人硬件,有很高的丰富度。在数据规模达到三百万的同时,还保证了数据的统一格式,是目前具身智能领域同时达到高质量、多样化和大规模的开源数据集。
对于具身智能的数据集而言,由于机器人有多种形态,如单臂、双臂、人形、四足等,并且感知和控制方式也各不相同,有些通过关节角度控制,有些则是通过本体或末端位姿坐标来驱动,所以具身数据本身比单纯的图像和文本数据要复杂很多,需要记录很多控制参数。而如果没有一个统一的格式,当多种类型的机器人数据聚合到一起,需要花费大量的精力去做额外的预处理。
因此鹏城实验室具身所首先设计了一套针对具身大数据的格式标准,该标准能记录多种形态的机器人控制参数,并且有结构清晰的数据组织形式,还能兼容不同帧率的传感器并记录对应的时间戳,以满足具身智能大模型对感知和控制时序的精确要求。下图展示了 ARIO 数据集的总体设计。
图 1. ARIO 数据集总体设计
ARIO 数据集,共有 258 个场景序列,321064 个任务,303 万个样例。ARIO 的数据有 3 大来源,一是通过布置真实环境下的场景和任务进行真人采集;二是基于 MuJoCo、Habitat 等仿真引擎,设计虚拟场景和物体模型,通过仿真引擎驱动机器人模型的方式生成;三是将当前已开源的具身数据集,逐个分析和处理,转换为符合 ARIO 格式标准的数据。下面展示了 ARIO 数据集的具体构成,以及 3 个来源的流程和示例。
图 2. ARIO 数据 3 个来源
真实场景的高质量的机器人数据不易获取,但意义重大。鹏城实验室基于 Cobot Magic 主从双臂机器人,设计了 30 多种任务,包括简单 —— 中等 —— 困难 3 个操作难易等级,并通过增加干扰物体、随机改变物体和机器人位置、改变布置环境等方式增加样例的多样性,最终得到 3000 多条包含 3 个 rgbd 相机的轨迹数据。下面展示了不同任务的采集示例以及采集视频。
图 3. ARIO 真实机器人数据采集示例
Cobot Magic 机械臂采集数据示例视频
基于 MuJoCo 的仿真数据采集示例视频
基于 Dataa SeaWave 平台的仿真数据生成示例视频
基于 Habitat 平台的仿真数据生成示例视频
从 RH20T 转换的数据示例视频
得益于 ARIO 数据的统一格式设计,能够很方便地对它的数据组成进行统计分析。下图展示了从 series、task、episode 三个层面对 ARIO 的场景(图 a)和技能(图 b)的分布进行统计。从中可见,目前大部分的具身数据都集中在室内生活家居环境中的场景和技能。
除了场景和技能,在 ARIO 数据中,还能从机器人本身的角度进行统计分析,并从中了解当前机器人行业的一些发展态势。 ARIO 数据集提供了机器人形态、运动对象、物理控制变量、传感器种类和安装位置、视觉传感器的数量、控制方式比例、数据采集方式比例、机械臂自由度数量比例的统计数据,对应下图 a-i。
以下图 a 为例,从中可以发现,当前大部分的数据来源于单臂机器人,人形机器人的开源数据很少,且主要来源于鹏城实验室的真实采集和仿真生成。
图 5.ARIO 数据集分类统计
更多关于 ARIO 数据集的详细信息与下载链接,请参考论文原文与项目主页。
#Equivariant neural networks and piecewise linear representation theory
如何让等变神经网络可解释性更强?试试将它分解成「简单表示」
神经网络是一种灵活且强大的函数近似方法。而许多应用都需要学习一个相对于某种对称性不变或等变的函数。图像识别便是一个典型示例 —— 当图像发生平移时,情况不会发生变化。等变神经网络(equivariant neural network)可为学习这些不变或等变函数提供一个灵活的框架。
而要研究等变神经网络,可使用表示论(representation theory)这种数学工具。(请注意,「表示」这一数学概念不同于机器学习领域中的「表征」的典型含义。本论文仅使用该术语的数学意义。)
近日,Joel Gibson、Daniel Tubbenhauer 和 Geordie Williamson 三位研究者对等变神经网络进行了探索,并研究了分段线性表示论在其中的作用。
论文标题:Equivariant neural networks and piecewise linear representation theory
论文地址:https://arxiv.org/pdf/2408.00949
在表示论中,简单表示(simple representation)是指该理论的不可约简的原子。在解决问题时,表示论的一个主要策略是将该问题分解成简单表示,然后分别基于这些基本片段研究该问题。但对等变神经网络而言,这一策略并不奏效:它们的非线性性质允许简单表示之间发生互动,而线性世界无法做到这一点。
但是,该团队又论证表明:将等变神经网络的层分解成简单表示依然能带来好处。然后很自然地,他们又进一步研究了简单表示之间的分段线性映射和分段线性表示论。具体来说,这种分解成简单表示的过程能为神经网络的层构建一个新的基础,这是对傅立叶变换的泛化。
该团队表示:「我们希望这种新基础能为理解和解读等变神经网络提供一个有用的工具。」
该论文证明了什么?
在介绍该论文的主要结果之前,我们先来看一个简单却非平凡的示例。
以一个小型的简单神经网络为例:
其中每个节点都是 ℝ 的一个副本,每个箭头都标记了一个权重 w,并且层之间的每个线性映射的结果都由一个非线性激活函数 𝑓 组成,然后再进入下一层。
为了构建等变神经网络,可将 ℝ 和 w 替换成具有更多对称性的更复杂对象。比如可以这样替换:
其可被描述为:
不过,要想在计算机上真正实现这个结构,却根本不可能,但这里先忽略这一点。
现在暂时假设函数是周期性的,周期为 2π。当用傅里叶级数展开神经网络时,我们很自然就会问发生了什么。在傅里叶理论中,卷积算子会在傅里叶基中变成对角。因此,为了理解信号流过上述神经网络的方式,还需要理解激活函数在基频上的工作方式。
一个基本却关键的观察是:𝑓(sin (x)) 的傅里叶级数仅涉及较高共振频率的项:
(这里展示了当 𝑓 是 ReLU 时,𝑓(sin (x)) 的前几个傅里叶级数项。)这与我们拨动吉他琴弦时发生的情况非常相似:一个音符具有与所弹奏音符相对应的基频,以及更高的频率(泛音,类似于上面底部的三张图片),它们结合在一起形成了吉他独特的音色。
该团队的研究表明:一般情况下,在等变神经网络中,信息会从更低共振频率流向更高共振频率,但反之则不然:
这对等变神经网络有两个具体影响:
- 等变神经网络的大部分复杂性都出现在高频区,
- 如果想学习一个低频函数,那么可以忽略神经网络中与高频相对应的大部分。
举个例子,如果使用典型的流式示意图(称为交互图 /interaction graph)表示,一个基于(8 阶循环群)构建的等变神经网络是这样的:
其中的节点是 C_8 的简单表示,节点中的值表示生成器的动作。在此图中,「低频」简单表示位于顶部,信息从低频流向高频。这意味着在大型网络中,高频将占据主导地位。
主要贡献
该团队做出了一些重要的理论贡献,主要包括:
- 他们指出将等变神经网络分解成简单表示是有意义且有用的。
- 他们论证表明等变神经网络必须通过置换表示构建。
- 他们证明分段线性(但并非线性)的等变映射的存在受控于类似于伽罗瓦理论的正规子群。
- 他们计算了一些示例,展示了理论的丰富性,即使在循环群等「简单」示例中也是如此。
等变神经网络和分段线性表示
该团队在论文中首先简要介绍了表示论和神经网络的基础知识,这里受限于篇幅,我们略过不表,详见原论文。我们仅重点介绍有关等变神经网络和分段线性表示的研究成果。
等变神经网络:一个示例
这篇论文的出发点是:学习关于某种对称性的等变映射是有用的。举些例子:
- 图像识别结果通常不会随平移变化,比如识别图像中的「冰淇淋」时与冰淇淋所在的位置无关;
- 文本转语音时,「冰淇淋」这个词不管在文本中的什么位置,都应该生成一样的音频;
- 工程学和应用数学领域的许多问题都需要分析点云。这里,人们感兴趣的通常是对点云集合的质量评估,而与顺序无关。换句话说,这样的问题不会随点的排列顺序变化而变化。因此,这里的学习问题在对称群下是不变的。
为了解释构建等变神经网络的方式,该团队使用了一个基于卷积神经网络的简单示例,其要处理一张带周期性的图像。
这里,这张周期性图像可表示成一个 n × n 的网格,其中每个点都是一个实数。如果设定 n=10,再将这些实数表示成灰度值,则可得到如下所示的图像:
我们可以在这张图上下左右进行重复,使之具有周期性,也就相当于这张图在一个环面上。令 C_n = ℤ/nℤ 为 n 阶循环群,C^2_n = C_n × C_n。用数学术语来说,一张周期性图像是从群 C^2_n 到 ℝ 的映射的 ℝ 向量空间的一个元素:
。在这个周期性图像的模型中,V 是一个「C^2_n 表示」。事实上,给定 (a, b) ∈ C^2_n 和 𝑓 ∈ V,可通过移动坐标得到一张新的周期性图像:
- ((a, b)・f)(x, y) = f (x + a, y + b)
也就是说,平移周期性图像会得到新的周期性图像,例如:
得到等变神经网络的一个关键观察是:从 V 到 V 的所有线性映射的 ℝ 向量空间的维度为 n^4,而所有 C^2_n 表示线性映射的 ℝ 向量空间的维度为 n^2。
下面来看一个 C^2_n 等变映射。对于
,可通过一个卷积型公式得到 C^2_n 等变映射 V → V:
举个例子,如果令 c = 1/4 ((1, 0) + (0, 1) + (−1, 0) + (0, −1))。则 c・𝑓 是周期性图像且其像素 (a, b) 处的值是其相邻像素 (a+1, b)、(a, b+1)、(a−1, b) 和 (a, b−1) 的值的平均值。用图像表示即为:
更一般地,不同 c 的卷积可对应图像处理中广泛使用的各种映射。
现在,就可以定义这种情况下的 C^2_n 等变神经网络了。其结构如下:
其中每个箭头都是一个卷积。此外,W 通常是 ℝ 或 V。上图是一张卷积神经网络的(经过简化的)图像,而该网络在机器学习领域具有重要地位。对于该网络的构建方式,值得注意的主要概念是:
- 此神经网络的结构会迫使得到的映射 V → W 为等变映射。
- 所有权重的空间比传统的(全连接)神经网络小得多。在实践中,这意味着等变神经网络所能处理的样本比「原始」神经网络所能处理的大得多。(这一现象也被机器学习研究者称为权重共享。)
该团队还指出上图隐式地包含了激活图,而他们最喜欢的选择是 ReLU。这意味着神经网络的组成成分实际上是分段线性映射。因此,为了将上述的第二个主要观察(通过将问题分解成简单表示来简化问题)用于等变神经网络,很自然就需要研究分段线性表示论。
等变神经网络
下面将给出等变神经网络的定义。该定义基于前述示例。
令 G 为一个有限群。Fun (X, ℝ) 是有限群 G 的置换表示(permutation representation)。
定义:等变神经网络是一种神经网络,其每一层都是置换表示的直接和,且所有线性映射都是 G 等变映射。如图所示:
(这里,绿色、蓝色和红色点分别表示输入、隐藏层和输出层,perm 表示一个置换表示,它们并不一定相等。和普通的原始神经网络一样,这里也假设始终会有一个固定的激活函数,其会在每个隐藏层中被逐个应用到分量上。)
最后举个例子,这是一个基于点云的等变神经网络,而点云是指 ℝ^d 中 n 个不可区分的点构成的集合。这里 n 和 d 为自然数。在这种情况下,有限群 G 便为 S_n,即在 n 个字母上的对称群,并且其输入层由 (ℝ^d)^n = (ℝ^n)^d 给定,而我们可以将其看作是 d 个置换模块 Fun ({1, ..., n}, ℝ) 的副本。如果将 Fun ({1, ..., n}, ℝ) 写成 n,则可将典型的等变神经网络表示成:
(这里 d=3 且有 2 层隐藏层。)这里的线性映射应当是 S_n 等变映射,而我们可以基于下述引理很快确定出可能的映射。
引理:对于有限 G 集合 X 和 Y,有
,其中 Fun_G (X × Y, ℝ) 表示 G 不变函数 X×Y →ℝ。
根据该引理,
,并且 G = S_n 有两条由对角及其补集(complement)给出的轨道。因此,存在一个二维的等变映射空间 n→n,并且这与 n 无关。(在机器学习领域,这种形式的 S_n 的等变神经网络也被称为深度网络。)
为了更详细地理解等变神经网络以及相关的分段线性表示论的定义、证明和分析,请参阅原论文。