谷歌DeepMind推出了一种新的方式来“窥探”AI的“内心”-CSDN博客

本文链接：https://blog.csdn.net/2301_79342058/article/details/143782729

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

谷歌DeepMind推出了一种新的方式来“窥探”AI的“内心”，并利用自动编码器揭示AI的黑箱运作。这种方法可能帮助研究人员更好地理解和控制AI的决策机制，为未来更可靠的AI系统铺路。

DeepMind的团队在研究被称为“机制可解释性”的领域，即试图理解神经网络如何实际运作。今年7月，他们发布了名为“Gemma Scope”的工具，让研究人员可以更清楚地观察AI在生成输出时内部发生了什么。团队负责人Neel Nanda指出，机制可解释性是一种新兴研究领域，目标是解构神经网络内部算法的运作方式。例如，AI在接收到“写一首诗”的指令后会输出韵律十足的句子，但具体执行的算法却不明朗，研究人员希望通过这种方式追踪其过程。

在分析AI模型Gemma时，DeepMind使用了一种“稀疏自动编码器”的工具。这种编码器可放大模型的每一层，帮助研究人员更直观地观察AI如何在不同数据层级上分类特征。例如，如果向Gemma提问“吉娃娃”，它就会激活“狗”这一特征，显示模型关于狗的知识。稀疏自动编码器的特点是仅使用部分神经元进行激活，形成更高效的表现形式，但同时控制信息的粒度，以便研究人员不至于被过度复杂的信息淹没。

DeepMind此举的目的是将Gemma和自动编码器的研究开源，鼓励更多研究人员使用和探索，从而进一步推动AI模型内部逻辑的理解。据悉，Neuronpedia，一个机制可解释性平台，也与DeepMind合作开发了Gemma Scope的演示版。用户可以在演示中输入不同指令并观察模型的响应，比如如果对“狗”特征进行极度放大，模型会在回答美国总统相关问题时莫名加入“狗”的内容，甚至可能回应出“狗叫声”。

稀疏自动编码器的有趣之处在于它们是无监督的，可以自主发现特征。例如，Neuronpedia的科学负责人Joseph Bloom提到，在自动编码中，“尴尬（cringe）”特征会在涉及负面评论时激活，这也说明模型能够自主找到与人类情感和判断相关的特征。此外，Neuronpedia还允许用户检索特定概念，标注激活的具体词汇，以了解模型是如何分解和理解人类概念的。

这种研究还揭示了AI为何会产生错误。举个例子，研究人员发现，AI模型将“9.11”视作比“9.8”更大，因为模型将这些数字误认为日期。这种错误往往是AI受限于特定的训练数据，经过调整后问题便可纠正。

机制可解释性还有许多潜在应用，例如在模型中去除敏感内容。当前LLM模型通常会内置系统级提示，以阻止用户获取不良信息，但通过机制可解释性，模型开发者有望找到并永久关闭这些节点，使AI彻底忘掉特定内容。

尽管机制可解释性前景广阔，但目前的技术难以完全控制AI的行为。Neuronpedia的创始人Johnny Lin表示，在模型参数的调整上，技术仍然存在不足。比如，如果通过减少暴力特征来控制模型，有可能会削弱AI在其他领域的知识。

总而言之，如果能够进一步深入AI的“心智”，机制可解释性研究将有可能成为实现AI对齐（确保AI行为符合预期）的有效途径。