隐写术和人工智能

在一项新的研究中,人工智能对齐研究实验室 Redwood Research 揭示了大型语言模型 (LLM) 可以掌握“编码推理”,这是一种隐写术形式。 

这种有趣的现象使得大型语言模型能够以人类读者无法理解的方式巧妙地将中间推理步骤嵌入到生成的文本中。

大型语言模型通常受益于推理的中间阶段来生成复杂问题的答案。

当这些中间推理步骤用于监视模型活动时,这种显式推理必须是忠实的,也就是说,它反映了模型实际推理的内容。

研究结果表明,大型语言模型可以通过训练来利用这种编码推理来实现卓越的性能,同时让用户不知道其中复杂的推理过程。

随着大型语言模型不断发展并变得更加强大,这种编码推理很可能自然出现,使其更难以检测。

然而,编码推理可能会破坏模型推理过程的透明度,并使监控人工智能系统的行为变得困难。

思想链(CoT)推理是一种广泛采用的提高法大型语言模型准确性的技术。

该方法指示模型逐步揭示其逻辑,得出最终答案。

研究表明,在许多任务中,CoT 提高了大型语言模型的表现并简化了结果的解释。

研究小组认为,随着言语模式变得更强,这种行为更有可能自然出现。

最后,它描述了一种方法,通过证明在适当的条件下,释义甚至可以成功地阻碍最好的编码方案,从而可以评估对编码推理的防御。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

网络研究观

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值