以下内容均为我个人的主观臆断
一、🧐基本信息
⚪标题: CAN LLM-GENERATED MISINFORMATION BE DETECTED?
⚪时间: 2023-7-21
⚪作者:
-
Canyu Chen
-
Kai Shu
🔵期刊: 2024 ICLR
🔵影响因子: 25.57
🙌引用数: 8
📙阅读记录:
🔹1、2024-02-21
🔹1、2024-02-22
🔹1、2024-02-25
二、📖这篇文章用什么方法解决了什么问题,实验结果如何:
作为一篇survey,本文核心一个问题展开多方面探究:
Will LLM-generated misinformation cause more harm than human-written misinformation?(LLM生成的虚假信息会比人写的虚假信息更有害吗?)
为了证明这个问题,作者从三个子问题入手:
1)How can LLMs be utilized to generate misinformation?
2)Can humans detect LLM-generated misinformation?
3)Can detectors detect LLM-generated misinformation?
作者总结本篇文章的贡献:
1、作者对LLM生成的虚假信息进行了分类;
2、对使用LLM生成虚假信息的方法进行了分类和验证;
3、证明了在相同语义的情况下LLM生成的的虚假信息比人写的虚假信息更难被检测出来(humans and detectors),从而证明了LLM生成的虚假信息更具有危害性;
4、对misinformation dectectors的未来进行了讨论。
三、之前的工作
[2024AAAI]OUTFOX:LLM-Generated Essay Detection Through In-Context Learning with Adversarially Generated Examples 生成对抗网络
Can AI-Generated Text be Reliably Detected?(这篇文章比较早,还没看)
https://arxiv.org/pdf/2303.11156.pdf
四、📚文章细节剖析:
4.1 TAXONOMY
作者从五个维度对LLM生成的虚假信息进行分类:
1)Types: fake news、rumours、conspiracy theories、clickbait、misleading claims、cherry-picking(不懂这是啥)
2)Domains:Healthcare、Science、 Politics、Finance、Law、Education、Social Media、Environment
3)Sources:Hallucination、Arbitrary Generation、 Controllable Generation
4)Errors:Unsubstantiated Content(未经证实的内容)、Total Fabrication(完全捏造的事实)、 Outdated Information(过时的信息)、Description Ambiguity(描述摸棱两可)、Incomplete Fact(事实不完整)、False Context(虚假上下文)
其中需要关注的是Sources和Errors,因为Types和Domains并不是解决LLM-misinformation的关键(一定是这样吗????我这样想是因为我觉得解决方法应该是要针对全类型、全领域覆盖,但是是不是可以用Agent去针对每一个类型和领域呢?)。
作者从三个维度对使用LLM生成虚假信息的方法进行分类:
1)Hallucination Generation(HG) 无意的
Define: Nonfactual content.(Including dates, names, addresses, numbers and quotes)
Cause:Intrinsic properties of auto-regressive generation and lack of up-to-date information.
2) Arbitary Misinformation Generation(AMG) 故意的
3) Controllable Misinformation Generation(CMG) 故意的
Including | Paraphrase Generation | Rewrting Generation | Open-ended Generation | Information Manipulation |
4.2 HOW CAN LLMS BE UTILIZED TO GENERATE MISINFORMATION ?
各大模型厂家会对模型的输出进行管制(防止越狱),作者对CHATGPT4的防越狱效果进行测试:
实验做法:每种生成方法测试100次
由于模型在实验测试中大多越狱成功,因此作者提出第一个Finding:
Finding 1: LLMs can follow users’ instructions to generate
misinformation in different types, domains, and errors.
4.3 LLMFake: LLM-GENERATED MISINFORMATION DATASET
作者通过不同的LLM生成器和生成方法构造了一个新的数据集 LLMFAKE
(不包含任何真实数据集):
生成器和检测器设置如下:
ChatGPT-3.5 (gpt-3.5-turbo)
or GPT-4 (gpt-4)
:default API setting of OpenAI.
Llama2
(Llama2-7B-chat, Llama2-13B-chat, and Llama2-70B-chat)` and Vicuna
(Vicuna-7b-v1.3, Vicuna-13b-v1.3, and
Vicuna-33b-v1.3) :hyperparameters for the sampling strategy
as follows: top_p = 0.9, temperature = 0.8, max_tokens = 2,000.
Hallucinated News Generation: 100条,Prompt
ChatGPT(gpt-3.5-turbo)
Totally Arbitrary Generation:100条,Prompt
ChatGPT(gpt-3.5-turbo)
Partially Arbitrary Generation :100 条 healthcare fake news 和100条political rumors Prompt
ChatGPT(gpt-3.5-turbo)
其他类型组成(每一条都用三种方法生成一次):
270条基于 Politifact
86条基于 CoAID
231条基于 Gossipcop
上面提到的都是用假新闻数据,采用了Paraphrase Generation 和 Rewriting Generation。
对于Open-ended Generation 类型的数据:
先提取了文章的前几句话(可能要提多一点,要达到总结文章的目的,但看附录作者给的例子都只是用了一句话)
作者分析数据集的语义构成:
HG、AMG和Information Manipulation生成的错误信息的语义信息明显与人为书写的错误信息不同(给的图看起来不是很明显,这个结论是站不住的)。
而 CMG 和人写的是很接近的:
作者还分析了可以通过控制LLM输出的风格使内容更具欺骗性。
4.4 CAN HUMANS DETECT LLM-GENERATED MISINFORMATION?
针对这个问题,作者在 Amazon MTurk
请了十个人进行评估:
每个评估者需要判断来自幻觉新闻生成和完全随机生成的所有100条新闻的可信度,随机抽取100篇来自部分任意生成和信息操作的100篇新闻,从政治事实中随机抽取100篇人为写的非事实新闻。由于其他生成的新闻数据是基于相同的非事实信息,为了避免不同新闻项目之间的语义重叠,我们从释义生成、重写生成和开放式生成的数据中随机抽取50条新闻。
Human是检测人写的信息,其他高亮的是检测GPT生成的新闻(同一个生成器,没有标高亮的是因为他们的生成器不一样)。作者发现评估者在检测LLM生成的虚假信息的准度比检测人写的假信息低,因此作者得出第二个发现:
Finding 2: LLM-generated misinformation can be harder for humans to detect than human-written misinformation with the same semantics.
4.5 CAN DETECTORS DETECT LLM-GENERATED MISINFORMATION?
这一部分跟上一部分思路一样,只是把评估者改为评估器(ChatGPT4
和 ChatGPT3.5
):
作者说监督学习前景不好,因为LLM生成的虚假信息非常难检测,事实上用真实信息prompt
监督一个LLM去生成虚假信息不就好了吗;
其次作者非常提倡 Zero-shot prompting strategies,上述实验就是采用Zero-shot。仔细想想当一个新闻爆发在我们身边,作为当事人来说确实会从直觉先去判断真假,但是经过一段时间后还是会有人去 类别判断 以前发生的事...所以感觉作者说的还是有点站不住脚,而且作者没有去实验....
作者Zero-shot-CoT的提示词是:
please think step by step and then determine whether or not it is a piece of misinformation. You need to output your thinking process and answer “YES” or “NO”
LLM detectors : ChatGPT-3.5, GPT-4, Llama2-7B, Llama2-13B
每个LLM都采用 “No CoT” 和 “CoT”两种策略,共8个LLM
根据实验作者得出第三个发现:(但是我感觉还是站不住脚,为啥不做one-shot或few-shot的实验呢?人也是会根据以前发生的事根据empiricism去做判断的)
Finding 3: LLM-generated misinformation can be harder for misinformation
detectors to detect than human-written misinformation with the same semantics.
4.6 作者提出一些countermeasures
作者将llm的生命周期分为三个阶段,并讨论在整个生命周期中针对llm生成的错误信息的对策。在训练阶段,我们可以整理训练数据以删除非事实的文章,并将训练过程纳入现有的知识库,以减少llm的幻觉。对齐训练过程,如RLHF,可以降低产生有害内容的风险。在推理阶段,我们可以利用提示过滤、意图建模或越狱防御来防止AMG方法(例如,完全任意生成),和置信度估计)或检索增强来抵御HG方法(例如,幻觉新闻生成)。然而,它们可能对大多数CMG方法(如重写生成)无效,这些方法是基于人为书写的误导性内容,并没有明确表达产生错误信息的意图。更多的研究需要开发推理阶段的事实验证方法来对抗CMG方法 。
五、🌟文章的亮点:
1、做出了一个完全由LLM生成的虚假新闻数据集
2、分析数据集Controllable Misinformation Generation(CMG) 的语义和人的语义是亮点,给出了为什么LLM的虚假信息难以判断的有力根据
六、🙄文章的缺陷:
1、实验做得太糙,很多必要的实验没有去做,例如第三个发现,我感觉实验站不住脚,为啥不做one-shot或few-shot的实验呢?人也是会根据以前发生的事根据empiricism去做判断的。
2、Finding 2 只请了10个人去做实验,结论不够有泛化性。。
七、💡我的想法:
1、是否可以根据不同的Domain微调不同的LLM检测器呢?
2、这篇文章的实验做成这样不应该中的呀。。。后面在OpenReview上发现被两个评委拒了,然后Area Chair力挽狂澜接受了...
八、🌐知识补充:
-
top_p(Top-p sampling): 这是一种用于生成文本的采样策略。在Top-p采样中,模型生成的下一个词是从累积概率大于等于top_p的词中随机选择的。通过设置top_p,可以控制生成的文本的多样性。较小的top_p值将导致更加集中和确定性的生成,而较大的top_p值则会增加生成的多样性。
-
temperature: 温度参数用于控制模型生成时对概率分布的敏感度。较高的温度值(例如0.8)会使得模型更加开放,更加随机地生成文本,而较低的温度值(例如0.2)会使得生成更加集中和确定性。这是因为温度调整了模型生成时的 softmax 操作的温度,使其更平滑或更尖锐。
温度 $$\tau$$ 是一个正数,用于调整 Softmax 函数的输出。温度调整后的 Softmax 函数如下:
通过增加温度 ,Softmax 的输出变得更加平滑,更均匀地分配概率质量给每个类别。较小的温度值会增加模型对分数最大的类别的自信度,使输出更尖锐。这是因为在温度较低时,指数运算的效果更显著,使分数较大的项在概率分布中占据更大的比例。
-
max_tokens: 这是生成文本的最大长度限制。当生成的文本达到指定的最大令牌数时,生成将停止。这是为了避免生成的文本过长。在一些应用场景中,限制生成的长度可以帮助确保生成的内容符合预期或适用于特定应用。
-
文章里看到一个zero-shot-CoT,有点懵逼,找了一下: