谷歌DeepMind推出了一种新的方式来“窥探”AI的“内心”

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

谷歌DeepMind推出了一种新的方式来“窥探”AI的“内心”,并利用自动编码器揭示AI的黑箱运作。这种方法可能帮助研究人员更好地理解和控制AI的决策机制,为未来更可靠的AI系统铺路。

DeepMind的团队在研究被称为“机制可解释性”的领域,即试图理解神经网络如何实际运作。今年7月,他们发布了名为“Gemma Scope”的工具,让研究人员可以更清楚地观察AI在生成输出时内部发生了什么。团队负责人Neel Nanda指出,机制可解释性是一种新兴研究领域,目标是解构神经网络内部算法的运作方式。例如,AI在接收到“写一首诗”的指令后会输出韵律十足的句子,但具体执行的算法却不明朗,研究人员希望通过这种方式追踪其过程。

在分析AI模型Gemma时,DeepMind使用了一种“稀疏自动编码器”的工具。这种编码器可放大模型的每一层,帮助研究人员更直观地观察AI如何在不同数据层级上分类特征。例如,如果向Gemma提问“吉娃娃”,它就会激活“狗”这一特征,显示模型关于狗的知识。稀疏自动编码器的特点是仅使用部分神经元进行激活,形成更高效的表现形式,但同时控制信息的粒度,以便研究人员不至于被过度复杂的信息淹没。

DeepMind此举的目的是将Gemma和自动编码器的研究开源,鼓励更多研究人员使用和探索,从而进一步推动AI模型内部逻辑的理解。据悉,Neuronpedia,一个机制可解释性平台,也与DeepMind合作开发了Gemma Scope的演示版。用户可以在演示中输入不同指令并观察模型的响应,比如如果对“狗”特征进行极度放大,模型会在回答美国总统相关问题时莫名加入“狗”的内容,甚至可能回应出“狗叫声”。

稀疏自动编码器的有趣之处在于它们是无监督的,可以自主发现特征。例如,Neuronpedia的科学负责人Joseph Bloom提到,在自动编码中,“尴尬(cringe)”特征会在涉及负面评论时激活,这也说明模型能够自主找到与人类情感和判断相关的特征。此外,Neuronpedia还允许用户检索特定概念,标注激活的具体词汇,以了解模型是如何分解和理解人类概念的。

这种研究还揭示了AI为何会产生错误。举个例子,研究人员发现,AI模型将“9.11”视作比“9.8”更大,因为模型将这些数字误认为日期。这种错误往往是AI受限于特定的训练数据,经过调整后问题便可纠正。

机制可解释性还有许多潜在应用,例如在模型中去除敏感内容。当前LLM模型通常会内置系统级提示,以阻止用户获取不良信息,但通过机制可解释性,模型开发者有望找到并永久关闭这些节点,使AI彻底忘掉特定内容。

尽管机制可解释性前景广阔,但目前的技术难以完全控制AI的行为。Neuronpedia的创始人Johnny Lin表示,在模型参数的调整上,技术仍然存在不足。比如,如果通过减少暴力特征来控制模型,有可能会削弱AI在其他领域的知识。

总而言之,如果能够进一步深入AI的“心智”,机制可解释性研究将有可能成为实现AI对齐(确保AI行为符合预期)的有效途径。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值