【论文笔记】SelfIE: Self-Interpretation of Large Language Model Embeddings

官方网址:SelfIE: Self-Interpretation of Large Language Model Embeddings

发表:ICML2024

作者:

​​​​​​Haozhe Chen1, Carl Vondrick1, Chengzhi Mao123,

1Columbia University, 2Mila, 3McGill University

摘要

大型语言模型 (LLM) 如何获得答案?解释和控制 LLM 推理过程的能力对于可靠性、透明度和未来模型发展至关重要。我们提出了SelfIE(嵌入的自我解释),这是一个框架,使 LLM 能够通过利用其响应有关给定段落的询问的能力,用自然语言解释自己的嵌入。SelfIE 能够解释隐藏嵌入中的开放世界概念,可在做出道德决策、内化提示注入和回忆有害知识等情况下揭示 LLM 内部推理。SelfIE对隐藏嵌入的文本描述为控制 LLM 推理开辟了途径。我们提出了监督控制,它允许编辑开放式概念,同时只需要计算单个层的梯度。我们将 RLHF 扩展到隐藏嵌入,并提出强化控制,可在没有监督目标的情况下消除 LLM 中的有害知识。

方法

通过将要解释的token替换模型开头的占位token,让模型进行重复或翻译

[X] Please repeate previous message

作者将这一步骤成为解释前向传递,将要解释的token放在输入前端,后面接上用来解释的提示词。解释提示词由两部分组成 [X] 代表占位符 以及 index s=0,“Please repsete previous message” 代表查询提示词

相关性分数计算:

score = \mathbb{P}\left ( T_i=t_i|do(\overline{h}_s^k=h^{l*}_{i*})\right ) \\ = \mathbb{P}[T_i=t_i|I,t_{<i},h^{l*}_{i*}]-\mathbb{P}[T_i=t_i|I,t_{<i}]

两种防御措施:

1. Supervised Control

2. Reinforcement Control

实验

模型:LLaMA-2-70B-Chat

解释提示词:“[INST] [X] [/INST] Sure, I’ll summarize your message:”

重复[X]占位符5次,并把占位符替换为要解释的embedding

解释层:k=3

作者测试了多个方向的实验效果,包括控制文本输出(positive,negative),有害内容判断,道德判断,控制有害内容筛除等

  • 7
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值