大模型语言LLM是如何思考的_大模型是如何思考的-CSDN博客

本文链接：https://blog.csdn.net/ms44/article/details/141960826

图像由 DALL-E 生成

你有没有想过人工智能模型是如何“思考”的？想象一下窥视机器的大脑并观察齿轮的转动。这正是 Anthropic 的一篇开创性论文所探讨的内容。这项研究题为“扩展单义性：从克劳德的 3 首十四行诗中提取可解释的特征”，深入研究了对人工智能思维过程的理解和解释。

研究人员设法从 Claude 3 Sonnet 模型中提取出一些特征，这些特征可以展示它对名人、城市甚至软件安全漏洞的看法。这就像窥视人工智能的思维，揭示它理解并用于决策的概念。

研究论文概述

在这篇论文中，包括 Adly Templeton、Tom Conerly、Jonathan Marcus 等人在内的 Anthropic 团队着手让人工智能模型更加透明。他们专注于中型人工智能模型 Claude 3 Sonnet，旨在扩大规模单义性——本质上确保模型中的每个特征都有明确的单一含义。

但是，为什么扩展单义性如此重要？单义性到底是什么？我们很快就会深入探讨这个问题。

研究的重要性

理解和解释 AI 模型中的特征至关重要。它有助于我们了解这些模型如何做出决策，从而使其更可靠且更易于改进。当我们能够解释这些特征时，调试、改进和优化 AI 模型就会变得更加容易。

这项研究对人工智能安全也有重要意义。通过识别与有害行为（如偏见、欺骗或危险内容）相关的特征，我们可以开发降低这些风险的方法。这一点尤其重要，因为人工智能系统越来越融入日常生活，道德考量和安全至关重要。

这项研究的主要贡献之一是向我们展示了如何理解大型语言模型 (LLM) 的“思维”。通过提取和解释特征，我们可以深入了解这些复杂模型的内部工作原理。这有助于我们了解它们做出某些决定的原因，从而提供一种窥探其“思维过程”的方法。

背景

让我们回顾一下前面提到的一些奇怪的术语：

单义性
单义性就像是一栋大楼里的每个锁都有一把特定的钥匙。想象一下，这栋大楼代表着人工智能模型；每个锁都是模型理解的一个特征或概念。有了单义性，每把钥匙（特征）只能完美地适合一把锁（概念）。这意味着每当使用一把特定的钥匙时，它总是能打开同一个锁。这种一致性有助于我们准确理解模型在做决策时在想什么，因为我们知道哪把钥匙能打开哪把锁。

稀疏自动编码器
稀疏自动编码器就像一个高效的侦探。想象一下，你有一个大而杂乱的房间（数据），里面散落着许多物品。侦探的工作是找到几个关键物品（重要特征），讲述房间里发生的事情的全过程。“稀疏”意味着这位侦探试图用尽可能少的线索来解开谜团，只关注最重要的证据。在这项研究中，稀疏自动编码器就像这位侦探一样，帮助从人工智能模型中识别和提取清晰、易懂的特征，从而更容易看到里面发生了什么。

以下是Andrew Ng 关于自动编码器的一些有用的讲义，可供您了解更多信息。

先前的工作

先前的研究通过探索如何使用稀疏自动编码器从较小的 AI 模型中提取可解释的特征奠定了基础。这些研究表明，稀疏自动编码器可以有效地识别较简单模型中的有意义特征。然而，人们非常担心这种方法是否可以扩展到更大、更复杂的模型，如 Claude 3 Sonnet。

早期的研究重点是证明稀疏自动编码器能够识别和表示较小模型中的关键特征。他们成功地证明了提取的特征既有意义又可解释。然而，主要的限制是这些技术只在较简单的模型上进行了测试。扩大规模至关重要，因为像 Claude 3 Sonnet 这样的大型模型可以处理更复杂的数据和任务，这使得提取的特征更难保持相同的清晰度和实用性。

本研究以这些基础为基础，旨在将这些方法扩展到更先进的人工智能系统。研究人员应用并调整了稀疏自动编码器，以处理更大模型的更高复杂性和维度。通过解决扩展挑战，本研究力求确保即使在更复杂的模型中，提取的特征仍然清晰且有用，从而促进我们对人工智能决策过程的理解和解释。

缩放稀疏自编码器

将稀疏自动编码器扩展为与 Claude 3 Sonnet 等大型模型配合使用，就像从小型本地图书馆升级为管理庞大的国家档案馆一样。适用于较小馆藏的技术需要进行调整，以处理更大数据集的规模和复杂性。

稀疏自动编码器旨在识别和表示数据中的关键特征，同时保持活跃特征的数量较低，就像图书管理员确切地知道数千本书中的哪几本可以回答您的问题一样。

图像由 DALL-E 生成

两个关键假设指导了这一扩展：

线性表示假设
想象一下一张巨大的夜空地图，其中每颗星星都代表人工智能理解的一个概念。该假设表明，每个概念（或星星）在模型的激活空间中都以特定的方向排列。本质上，这就像说，如果你在空间中画一条线直接指向某颗特定的星星，你就可以通过它的方向唯一地识别出那颗星星。

叠加假设
基于夜空类比，该假设就像是说人工智能可以使用这些方向来绘制比使用几乎垂直的线所绘制的方向更多的星星。这允许人工智能通过找到组合这些方向的独特方式来有效地打包信息，就像通过仔细地将它们映射到不同的层中来将更多的星星放入天空中一样。

通过应用这些假设，研究人员可以有效地扩展稀疏自动编码器，使其与 Claude 3 Sonnet 等更大的模型配合使用，从而使它们能够捕获和表示数据中的简单和复杂特征。

训练模型

想象一下，尝试训练一群侦探筛选庞大的图书馆以找到关键证据。这与研究人员在研究 Claude 3 Sonnet（一种复杂的 AI 模型）时使用稀疏自动编码器 (SAE) 所做的工作类似。他们必须调整这些侦探的训练技术，以处理由 Claude 3 Sonnet 模型代表的更大、更复杂的数据集。

研究人员决定将 SAE 应用于模型中间层的残差流激活。将中间层视为侦探调查中的关键检查点，在这里可以找到许多有趣的抽象线索。他们之所以选择这一点，是因为：

尺寸更小：残差流比其他层更小，因此计算资源更便宜。
减轻跨层叠加：这指的是不同层的信号混合在一起的问题，就像味道混合在一起而难以区分一样。
丰富的抽象特征：中间层可能包含有趣的高级概念。

该团队训练了三个版本的 SAE，它们具有不同的处理特征的能力：1M 特征、4M 特征和 34M 特征。对于每个 SAE，目标是在保持准确性的同时保持较低的活动特征数量：

活跃特征：平均而言，任何时候都有少于 300 个特征处于活跃状态，可以解释模型激活中至少 65% 的差异。
无效功能：这些功能永远不会被激活。他们发现，在 1M SAE 中，无效功能约占 2%，在 4M SAE 中，无效功能约占 35%，在 34M SAE 中，无效功能约占 65%。未来的改进旨在减少这些数字。