论文链接: https://arxiv.org/pdf/2403.18249
目录
4.4 Automatic Fake News Detection
摘要:
大型语言模型(LLMs)的最新进展使得假新闻的制造成为可能,尤其是在医疗保健等复杂领域。
研究凸显了 LLM 生成的假新闻在有人工辅助和无人工辅助情况下的欺骗性差距,但提示技术的潜力尚未得到充分挖掘。
因此,本研究旨在确定提示策略能否有效缩小这一差距。目前基于 LLM 的假新闻攻击:
(1)需要人工干预信息收集,
(2)缺乏详细的支持性证据,
(3)无法保持上下文的一致性。
因此,为了更好地了解威胁策略,作者提出了一种强假新闻攻击方法,称为条件变异自动编码器类似提示(VLPrompt)。与目前的方法不同,VLPrompt 无需收集额外的数据,同时还能保持上下文的一致性并保留原文的细节。
为了推动检测 VLPrompt 攻击的未来研究,作者创建了一个新的数据集,名为 VLPrompt 假新闻(VLPFN),其中包含真实和虚假文本。
实验包括各种检测方法和新的人类研究指标,以评估它们在数据集上的性能。结果表明,VLPrompt 在降低文章生成成本、有效欺骗人类和自动检测器方面明显优于其他提示方法。作者还从 LLM 生成的假新闻中找出了几种模式,以帮助人类检测这些文章。
1 Introduction
背景:
以往的假新闻主要源于人为操纵,但最近的进步促进了通过大型语言模型(LLM)自动生成假新闻(Vykopal 等人,2023 年)。
鉴于人为生成的假新闻与 LLM 生成的假新闻之间存在差异(Mu ˜noz-Ortiz 等人,2023 年),当务之急是更新检测系统,使检测系统了解 LLM 生成的假新闻(Chen & Shu,2023 年)。
作者采用了 "红队"(red teaming)策略(Perez 等人,2022 年),通过生成先进的假新闻样本来提高检测能力,从而挑战现有模型,暴露其缺陷。
早期的方法:
以往的研究提出了两种类型的提示:
早期的方法直接要求 LLM 编造故事,但生成的故事很容易被语言模型识别出来(Wang 等人,2023 年;Sun 等人,2023 年)。
现在的新策略通过使用辅助材料(如真实新闻和人工制作的信息)来增强生成效果,以提高编造的可信度。真实新闻可以通过数据抓取随时获取,而通过人工收集/制作可信的额外信息则需要付出更多努力。如图 1 所示,给定一组事实性文章,假新闻创作者更喜欢这样的提示:(1) 将事实变成虚假信息;(2) 保持主题一致;(3) 保留原始文章的专业写作风格,这样他们就能以最小的人力投入,创作出最具欺骗性的假新闻。
然而,要实现这些目标,以往基于 LLM 的假新闻工作面临三大问题:
(图 1:假新闻制造者如何使用 LLM 的真实场景。假新闻制造者选择使用自动将事实转化为假新闻的提示器,而不是手动制作虚假信息。)
第一个问题是编造额外的特定于文章的虚假信息的效率低下(Pan 等人,2023 年;Jiang 等人,2023 年),如不同的主题、文章相关问题和假新闻文章草稿。人为收集虚假信息的必要性导致生成效率低下,并对攻击模型的专业性提出了要求。因此,需要一种能独立于额外的人工收集数据的攻击模型。
第二个问题是缺乏细节。具体来说,Su 等人(2023 年)、Wu & Hooi(2023 年)、Jiang 等人(2023 年)使用了人工制作的假新闻摘要。然而,由于 LLM 在编造详细事例方面的局限性,导致生成文章中的主张缺乏支持性证据。
第三个问题涉及保持主题的统一性。Pan 等人(2023 年)使用了一个包含真实新闻的问答数据集,通过操作答案生成假新闻文本。这种方法只修改了与问题相关的内容,未能使调整后的证据与整体主题保持一致,导致上下文一致性被破坏。
方法:
为了探索假新闻检测模型在面对 LLM 的复杂攻击时的脆弱性(Chakraborty 等人,2018 年;Suciu 等人,2019 年),作者引入了一种名为 VLPrompt 的攻击模型来解决上述两个问题。从本质上讲,VLPrompt 会指示 LLM 从文本中提取并操纵关键因素,从而在没有额外数据的情况下生成令人信服的假新闻。
数据集:
此外,为了便于研究针对 VLPrompt 攻击的检测策略,作者发布了 VLPFN 数据集,其中包括真实文本、人工制作的假文本和 LLM 生成的假文本。在假新闻检测方面,作者的实验涵盖了各种检测模型和人工评估,获得了许多启示。
作者的贡献包括:
作者介绍了一种名为 VLPrompt 的强大假新闻攻击模型,它无需人工收集假新闻,并能解决细节丢失和上下文一致性问题。
作者发布了一个根据公开数据编制的数据集 VLPFN,这将有助于开发能够处理VLPrompt 攻击的假新闻检测模型。
- 实验评估了各种检测模型,并引入了新颖的人工评估指标来全面评估生成的假新闻的质量,得出了许多重要发现。
2 Related Work
假新闻生成。在前 LLM 时代,假新闻文章的自动生成通常涉及洗词和随机替换真实新闻文章(Zellers 等人,2019;Bhat & Parthasarathy,2020)。然而,这种人造内容往往缺乏连贯性,很容易被人类读者识别。随着LLM的出现,出现了一个重要的研究机构,重点研究制作连贯、合乎逻辑的假新闻的潜力。
前期的工作利用直接prompt制造假新闻(Wang et al., 2023; Sun et al., 2023)。然而,由于缺乏细节或一致性,这些方法未能欺骗自动检测器。
随后的方法引入了对人类提供的真实新闻、事实和故意虚假信息的使用。具体来说,苏等人(2023)要求LLM根据人类收集的虚假事件摘要捏造文章。 Wu & Hooi (2023) 与LLM一起改进了假新闻文章的写作。
除了上述方法外,Jiang 等人 (2023)使用虚假事件和真实新闻文章来生成假新闻。
潘等人 (2023) 采用包含真实新闻的问答数据集,通过操纵答案来生成假新闻文本。
总体而言,人工制作假新闻的策略可以防止假新闻文章的自动批量生产。此外,依靠编造摘要的技术往往会产生细节不足的内容,而对特定事件或元素的改动往往会引起上下文一致性的问题。
假新闻检测。
主流的假新闻检测模型通常采用文章本身文本之外的辅助信息(Zhou & Zafarani, 2020)。
例如,Grover(Zellers 等人,2019)考虑了出版日期、作者和出版商等元数据,以确定文章的合法性。
DeClarE(Popat 等人,2018 年)根据从网络搜索文章中检索到的信息检查声明的可信度。
Zhang 等人(2021 年)从内容中挖掘情感和语义特征作为附加指标。
Defend(Shu 等人,2019 年)分析了相关文章及其在社交媒体平台上引起的反应。
然而,这些辅助数据在现实世界中并不总是可用的。
最近的论文(Su 等人,2023 年;Sun 等人,2023 年;Wang 等人,2023 年)表明,经过微调的预训练语言模型(PLMs)和 LLMs 也可能在假新闻检测领域提供值得称道的结果。
在此研究中,作者在数据集上检验了各类假新闻检测模型的性能。
3 Methodology
基于现有攻击方法的局限性和假新闻(假新闻的一种)创作者的现实担忧,作者提出了用于假新闻生成的 VLPrompt。为了进一步说明 VLPrompt 与现有方法的不同之处,作者在图 2 中展示了以往研究中两种典型提示策略("摘要 "和 "问答")与 VLPrompt 的工作流程。
"摘要 "和 "问答 "也是假新闻生成任务的基准模型。每种策略都会在一次请求中生成一篇文章,如果未能通过资格模块检查,就会被丢弃。三种文章生成方法和鉴定方法的详细提示见附录 A.1。
(VLPrompt 与两种基准提示策略对比的工作流程。图中的步骤与提示步骤一致)
A.1 Prompt Detail
下面列出了四个生成提示、一个资格提示和一次检测提示。
在实验过程中,作者还使用了其他版本的生成提示进行比较。
具体来说,"VLPrompt+r "是 VLPrompt 版本,在图 8 中的步骤 2 中加入了角色扮演模块。
"VLPrompt+r-s "是 VLPrompt+r 版本,不包含步骤 4(图 8)中的样式对齐要求。
角色扮演模块列出了几个目标,如 "引起社会恐慌",供学习者选择。
角色扮演技术是公认的成功率很高的越狱方法(Liu et al. 这里的 "越狱 "指的是旨在绕过 LLM 道德检查的提示技术。
"QA_s "与下面的图 6 相同,只是要求 "对文章中的某个细节提出疑问"。请注意,为了公平比较,作者调整了 "SUMMARY "和 "QA "的原始版本,删除了人为虚假信息的使用。以下所有提示信息均填写在一条系统信息中,之后会有用户提示,分别提供文章内容。生成过程中使用的温度均为 0.7。鉴定和检测时使用的温度均为 0.7。
基线:
摘要(SUMMARY)(Su 等人,2023 年)从包含假新闻的摘要中生成一篇文章。具体来说,要求 LLM 交替使用原始文章的观点,并生成基于新观点的假新闻文章。尽管指示 LLM "重写 "而不是编造一篇新文章,但由于无法根据摘要级逻辑执行实例到实例的映射,LLM 在修改和重新利用原始文章中的实例时仍很吃力。在这种情况下,在整个生成过程中存在遗漏细节的风险。因此,生成的文章可能缺乏支持性实例
问答(QA)(Pan 等人,2023 年)通过改变对相关问题的回答,将假新闻引入文章。这一过程的第一步是提出一个关于真实新闻的 "问题",然后回答这个问题,得到 "答案1"(第 1 步)。然后修改答案(步骤 2)。然后使用修改后的答案生成一篇文章(第 3 步)。最后,从生成的文章中提取 "问题 "的答案("答案 2")(第 4 步);如果 "答案 2 "与 "答案 1 "不同,则保留生成的文章(第 5 步)。这种方法的重点是在文章生成过程中将上下文元素与更改后的答案保持一致,而忽略了与答案无关的方面,这些方面可能会导致与调整后的元素不同的主题方向。
VLPrompt 借鉴了条件变异自动编码器(CVAE)的思想,解决了先前方法的局限性。
为了有效地重复利用详细实例来生成假新闻,VLPrompt 首先引导 LLMs 找出真实新闻中的关键要素--对象、事件、观点等(步骤 1)。- 步骤 1)。
与 "摘要 "中的全内容摘要不同,VLPrompt 会进行适度的摘要,在不遗漏关键观点或证据的情况下浓缩内容。
然后,要求LLM修改一些关键内容,以改变主题(第 2 步)。这一指令可确保同时调整证据和主题,保持上下文的一致性。
最后,引入风格和长度控制模块,使伪造新闻的风格和长度与原版相匹配,从而提高其真实性和一致性(第 3 步)。
作者还提出了一个版本(VLPrompt+r),在步骤 1 和步骤 3 之间加入了角色扮演步骤,以指导主题修改。该版本的设计详见附录 A.1
如果将文章空间定义为 X,将关键要素定义为瓶颈潜空间 Z,将恶意主题和写作风格定义为两个条件 Ct 和 Cs,那么就可以将 VLPrompt 视为一个 CVAE 框架。在这个框架中,LLM 作为模型将文章编码到空间 Z 中,根据 Ct 和 Cs 调整潜在分布,然后将改变后的潜在特征映射回空间 X。因此,生成的假新闻文章 X′ 关注假新闻分布中的样本:
在生成请求之后,会向LLM发送一份鉴定请求供其审查。如果真假新闻对不能在表达和措辞上可以区分,则要求 LLM 回答 "是"。如果回答 "是",则生成的文章符合数据集的要求。作者还抽取了部分文章进行人工审核,以验证鉴定模块的有效性。详细步骤见第 4.3 节。
4 Experiment and Analysis
作者研究了各种假新闻生成方法的成本和有效性。作者对所有人工和自动检测指标进行了显著性测试(附录 B.2),以证明 VLPrompt 生成的文章具有显著的欺骗性。此外,作者还研究了 LLM 生成假新闻的模式,以帮助人类识别 LLM 生成的文章。
B.2 Significance Test
为了检验是否有任何一种提示策略优于其他策略,作者对人工和自动检测器对每种提示的检测指标进行了方差分析(Girden,1992 年),发现分布均值存在显著性差异(F 值 = 2.35,P 值 = 0.04)。因此,作者对每对分布进行了Turkey诚实显著差异(HSD)检验。表 5 显示了 Tukey's 诚实显著差异(HSD)检验结果。用于检验的属性是来源方面的基线表现和人类研究得分。结果显示,假新闻生成方法 "QA"、"VLPrompt "和 "SUMMARY "与其他模型的性能分布不同,即 "拒绝 "结果均为 "真"。在上述三种方法中,"SUMMARY "没有明显优于 "VLPrompt+r-s",而其他方法则明显优于 "VLPrompt+r-s"。因此,可以得出结论:"QA "和 "VLPrompt "优于其他方法
4.1 数据集组成
从本质上讲,数据集由三部分组成:真实新闻文章、人工生成的假新闻文章和 LLM 生成的假新闻文章。
真实新闻文章来自权威医学新闻网站,包括 "NIH"(NIH,2023 年)和 "WebMD"(WebMD,2023 年)。
人工生成的假新闻文章来自权威事实核查网站的档案,包括 "AFPFactCheck"(AFPFactCheck,2023 年)、"CheckYourFact"(CheckY- ourFact,2023 年)、"FactCheck"(FactCheck,2023 年)、"HealthFeedback"(HealthFeedback,2023 年)、"Lead Stories"(LeadStories,2023 年)和 "PolitiFact"(PolitiFact,2023 年)。
这些文章的发布日期从 2017 年 1 月 1 日至 2023 年 5 月 1 日。
根据提示策略的不同,LLM 生成的假新闻文章被分为八组。在生成每组文章时,作者随机抽取真实的新闻文章作为假新闻文章生成的来源。这个过程一直持续到达到假新闻文章的目标数量,或者用完所有可用的真实新闻文章:
然后,作者对生成的文章进行了审查。如果生成的文章只是重复了源文章的内容,则被视为不合格的假新闻,随后被排除在外。合格文章与生成文章的比例详见表 1。经过自动和人工评估,在每个类别中纳入了约 180 篇生成文章,但受到合格与生成比例的限制
4.2 Fake News Generation
LLM 生成的文章平均采用八种不同的策略。其中,"VLPrompt+r "和 "VLPrompt+r-s "是 VLPrompt 的两个备选版本,分别表示 "带角色扮演模块 "和 "带角色扮演模块但不带风格控制模块"。"QA"、"QA s "和 "SUMMARY "分别代表图 2 中的 "提问-回答 "和 "总结 "基线提示策略。具体来说,"QA "保持了一个宽泛的问题范围,而 "QA_s "中的问题则侧重于细节,这样就可以研究语境不一致问题是否与修改程度有关。
最后,"GPT 4 "和 "vicuna "是用 VLPrompt+r 通过不同的 LLM 生成的文章。详细提示见附录 A.1。生成成本统计。
表1内容介绍:
表1显示了 LLM 生成的每个源文章的数量和请求级成本。作者选择不深入研究token级成本,因为它主要取决于源文章的长度,这一点对所有方法都是一样的。不过,实验表明,大多数真实文章的长度都在 4000 个 token 以内,因此在大多数情况下,生成文章在经济上是可行的。在表 1 中,"成功率 "指标反映了成功生成的文章占总尝试次数的比例。"平均请求 "表示每生成一篇合格文章所需的 LLM 请求平均数。
在理想情况下,如果生成的每篇文章都符合资格标准,那么平均申请次数为 2 次--一次用于初始生成,另一次用于后续资格认证。
成功率 "是根据生成的文章数量与使用的源文章数量之间的比率计算得出的。例如,Vicuna 从 1360 篇真实新闻文章中生成了 160 篇,因此成功率(第二列)为 160/1360 = 0.118。生成每篇文章需要两次请求:一次用于生成,另一次用于鉴定。因此,Vicuna 生成一篇合格文章所需的平均请求数(第三列)为 2/0.118 = 16.95。
在所有生成方法中,"Vicuna"、"QA "和 "QA s "都无法从 1360 条真实新闻中生成 180 条目标新闻。Vicuna "成功率低的原因是模型的规模与冗长复杂的提示之间的矛盾。相当一部分使用 "QA "和 "QA s "生成的文章在鉴定模块中被丢弃。具体来说,"QA-s "比 "QA "的成本更高,因为 LLM 在处理上下文不一致问题时往往会将细微的修改还原回去。另一方面,"VLPrompt"、"SUMMARY "和 "GPT4 "的成功率很高。直观地说,修改主题比修改细节会导致更大的差异,因此很容易满足要求。此外,角色扮演意图注入模块似乎会导致成功率下降。
4.3 Human Evaluation
实验分两个不同阶段进行人工评估。第一阶段是假新闻生成的鉴定阶段。人工评估员的任务与资质模块相同,以确认他们的产出。第二阶段涉及对生成文章质量的全面评估。不再仅仅衡量人类评估员成功发现假冒文章的比率,而是引入了额外的指标,以全面衡量生成内容欺骗人类读者的能力。
人的资质。从数据集中随机选取了 80 篇文章,并选取了另外 80 篇LLM资格模块认为不合格的文章。每批 80 篇文章包括用八种不同方法各生成的十篇文章。两名人类评估员负责将这些虚假新闻文章与真实的原创文章进行比较,以确定两者的相似度。结果表明,鉴定模块总体上是可靠的。在评估中,合格批次中的所有 80 篇文章和不合格批次中的 57 篇文章都被认为归类正确。评估人员认为,不合格批次中的其余 23 篇文章令人困惑,并指出,虽然与来源文章的差异很小,但这些差异使这些文章 "可能因差异而合格,但作为主题改变者则不合格"。因此,这一人工评估过程证实了鉴定模块的可靠性。
对人类的欺骗性。以往的研究只关注人类分类的准确性,而忽视了个体对自己的反应缺乏信心的情况(Jiang 等人,2023 年;Su 等人,2023 年)。重要的是要探索人类决策背后的认知过程,而不仅仅是一个简单的结论。因此,设计了六种人类研究指标,旨在全面评估文章的具体特征如何影响人类受试者的决策过程
具体来说,从欺骗性、写作质量和潜在影响这三个角度来设计衡量标准。
正确性 "指标评估生成的文章是否能够误导人类。
中立 "指标衡量生成的文章是否像专业新闻报道那样从中立的角度撰写。
"信息量 "和 "一致性 "指标分别考察文章是否提供了足够详细的例子,以及所有关键要素是否一致地支持同一主题。
而 "意图 "和 "细节 "指标则要求人类受试者判断虚假新闻背后作者的恶意,并估算篡改内容的比例。
为了确保人类审稿人采用统一的评估标准,聘请了多名评估员对不同类别的各种文章进行评估,详细情况请参见第 4.3 节的实验设置。
此外,除了二元选择(0 和 1)之外,还允许有一定范围的分数,并提供了评分指南,以帮助评估者在打分时采用一致的标准。各种指标的文章质量评估指南概述如下:
正确性: 文章看起来是真新闻(0)还是假新闻(1)?
中性: 文章是用中性的语气写的(1),还是用情绪化的词语写的(0)?
信息性: 新闻是否用具体事例(即有确切数字、人名、时间、地点等的事例)来支持其观点(1),还是只是重复一般性的说法(0)?
一致性: 文章是否有一个主要观点(1),还是谈论了几个不相关的观点(0)?
意图: 在知道新闻是假的情况下,您认为修改背后是否有明显的恶意(1)?还是只是随意替换了一些因素(0)?
细节: 在知道新闻是假的情况下,与原新闻相比,它是否改变了主题(1)、部分主题(0.5),或只是一些细节(数字、术语等)(0)?
为了评估所生成文章的质量,人类评估员最初的任务是确定 90 篇文章(80 篇假新闻文章和 10 篇真新闻文章)的真伪,辨别它们是真还是假。然后,他们被要求将这 80 篇假新闻文章与相应的源文章进行比较,以评估两者的异同。
表 2 中的 "正确率 "指的是人工评估人员准确识别出的假新闻文章的比例。正确率 "结果显示,"VLPrompt "在误导参与者方面最为有效。
此外,"VLPrompt "在 "意图 "和 "一致性 "两方面都表现突出。然而,这也表明角色扮演模块并不能提高语境的一致性,即使是在使用更先进的 LLM(如 ChatGPT-4)时也是如此。
"细节 "表明,"Vicuna "和 "VLPrompt+r-s "倾向于改变文章细节,可能会使整体主题保持不变。
"QA "的 "细节 "指标显示,在缺乏指导的情况下,LLM 容易对文章的特定部分提出问题。此外,所有生成的文章在 "中性 "和 "信息量 "方面都获得了高分,这意味着即使没有明确的指示,LLM们一般也会保留原文章的写作风格和具体细节。
(表 2:假新闻文章的人工研究评分。行中列出了人工评估的指标;列中为文章来源。为简洁起见,用 "VLPrompt "代替 "Ours"。数字为 10 篇文章×2 人的平均得分。粗体和下划线为最佳和次佳分数)
4.4 Automatic Fake News Detection
检测模型介绍。在实验中,考虑了八种检测模型,包括四种基线模型、微调 PLM、SOTA 假新闻检测模型、LoRA 微调 LLM 和 ChatGPT-3.5。所选模型的特点如下。微调模型是从 Hugging Face 资源库中提取的。SOTA 假新闻检测模型代码从相应的 GitHub 软件库中下载。
BERT(Devlin 等人,2018 年): 以自我监督方式在大型英语数据语料库上预先训练的双向转换器模型。
RoBERTa(Liu 等人,2019 年): 使用更多数据、动态掩码和字节对编码增强的 BERT。
FN-BERT(UNGJUS,2023 年): 基于 BERT 的模型最近在 2023 年的假新闻分类数据集上进行了微调。
Grover (Zellers 等人,2019 年): 基于 GAN 的模型,包含多个转换器模块。只用的数据训练了判别器部分。
- DualEmo(Zhang 等人,2021 年): 基于 BiGRU 的模型,利用情感特征提取技术辅助假新闻检测。
- Llama2(Touvron 等人,2023 年): 这是一个著名的开源 LLM,采用了从人类反馈强化学习(RLHF)技术进行微调。事实证明,与企业级 LLM 相比,它在参数量相对较小的情况下也能表现出极具竞争力的性能。
- Vicuna(Chiang 等人,2023 年): 一种开源 LLM,主要通过 ChatGPT-4 的模仿学习进行微调。事实证明,与参数量相对较小的企业级 LLM 相比,它表现出了极具竞争力的性能。
- ChatGPT-3.5(OpenAI,2023 年): 这是 OpenAI 功能强大的语言模型中使用最广泛的迭代版本。本研究采用了 ChatGPT-3.5 turbo API。
检测模型训练:
对三个 PLM 进行了微调,对两个 SOTA 假新闻检测模型进行了全面训练,并使用 LoRA(Hu 等人,2021 年)和单次提示策略对两个 LLM 进行了微调。
在对 PLM 进行微调时,采用了可训练的双层前馈神经网络,将新闻文章的潜表征转换为二元分类结果。
然而,这种方法并不适用于 LLM。因为大多数 LLM 主要是为文本生成而设计和预先训练的,将其输出限制为二进制分类结果具有挑战性.
为了填补这一空白,作者在监督生成微调过程中提供了带有文章-标签对示例的提示,以指导 LLM。这一设计遵循了(Gao 等人,2020 年)关于基于提示的微调的建议。在提示中,模板规范了生成格式,并使损失计算只针对 LLM 得出的结论(即 "真 "或 "假")。该示例提供了补充背景,以帮助 LLM 识别其他文章中的事实/反事实。这种设计反映了事实核查人员在现实世界中试图辨别传入文章真伪的情景--事实核查人员可能可以获取存档文章的标签,但不一定知道这些标签与传入文章的关系。监督微调完成后,模型应能利用训练数据中的 事实以及范例文章和待分类文章之间的关系,对收到的文章进行分类。详细提示见附录 A.1。针对 PLM 的微调实验采用了 4 个批次、2E - 5 的学习率、300 个训练历元和 Adam 优化器。在使用 LoRA 对 7b LLM 模型进行微调时,使用了 32 个批次和 2E - 4 的学习率。模型的训练时间为 4 个历元,优化器为 AdamW,并遵循 Hugging Face 提供的指南。
对自动探测器的欺骗能力:
为了评估自动检测器在检测LLM生成的假新闻方面的能力,作者考虑了三种预先训练好的语言模型(PLM)、两种带有LoRA的7b LLM(Hu等人,2021年)、两种最先进的(SOTA)假新闻检测模型(Zellers等人,2019年;Zhang等人,2021年)和一种企业级LLM。
研究结果表明,经过微调的 PLM 经常会将假新闻文章误判为真实新闻。特别是当 PLM(如 FnBERT)已经用人类撰写的假新闻进行过预先训练时。
此外,DualEmo(Zhang 等人,2021 年)的准确率最高,而经过微调的 Llama2-7b 在 F1 分数方面表现出色。总的来说,所有模型的准确率和 F1 分数都低于 0.86。
不过,在没有人类撰写的假新闻的情况下,所有检测模型的性能都有所提高,详见附录 B.1。这表明,在检测不同类型的虚假新闻文章时,同时训练各种模型可能会带来益处。
B.1 无人工编写假新闻的自动假新闻检测
表 4 显示了假新闻检测模型在不包括人类撰写的假新闻文章的情况下的功效。前四个基线模型经过充分调整直至收敛(在 50 个历时内没有改进),而 LLM 则经过三个历时的调整。与同时使用人类撰写的假新闻和 LLM 生成的假新闻对模型进行训练相比,检测性能有了显著提高,尤其是在精确度(即识别假新闻的准确性)方面。
这些结果表明,LLM 生成的文章在表现形式上更接近真实的新闻文章。与人类撰写的假新闻文章相比,LLM 生成的假新闻文章的空间更大。因此,当使用所有三种类型的新闻来源进行训练时,检测模型更容易将 LLM 生成的文章与真正的新闻文章混淆。
4.5 LLM 生成的假新闻中的模式发现
还研究了 LLM 如何将真实新闻变成假新闻的策略。
首先通过人工对比生成的文章和来源文章进行了案例研究。
然后,利用词云将 ChatGPT-3.5 识别出的配对假新闻和真新闻文章之间的区别可视化。
这一分析中突出显示的可识别模式将使人类能够识别由 LLM 生成的新闻文章,而无需依赖机器协助
案例研究:
在评估过程中,人工审稿人注意到,LLM 经常颠倒观点,而不是更改具体细节,如案例图 3 所示。生成的文章将 "多喝水可以降低心力衰竭的风险 "这句话改成了 "增加心力衰竭的风险"(红色高亮显示),同时保留了与这句话无关的写作风格和内容(绿色高亮显示)。这种故意的篡改使假冒文章对人类和自动检测器都造成了混淆,这表明人们可以通过检查负面词语的频率来识别 LLM 生成的假新闻
修改过程中的模式。
在鉴定阶段,要求 ChatGPT-3.5 不仅要确定生成的文章是否与原始新闻来源不同,还要解释其原因。如果某些区别在大多数虚假文章对中反复出现,那么表明这些区别的词语将揭示 LLM 如何修改内容的模式。在这种情况下,观察词频有助于识别 LLM 生成的文章。为了找出最常见的差异,过滤掉了与差异无关的词,如 "文章"、"第一 "和 "第二",并通过词云图显示这些词的频率。
从词云来看,"mention "和 "doe mention"("does not mention "的token版本)经常出现在所有评论中。这表明生成文章的一个特点就是放弃/修改细节。所有提示语用来扭曲文章的另一个主要方法是 "引起关注"。
同样,"potential question”, “criticize”, and “risk”等关键词也指向类似的方法。具体而言,ifferent theme” and “different perspective”等关键词在 SUMMARY’s的词云中出现的频率较高。specific” and “detail”通常出现在对 "QA_s "和 "QA "的评论中,而在与 VLPrompt 相关的评论中,这两类关键词的出现频率都很高。这与假设相吻合,即 SUMMARY从整体上修改文章,"QA "和 "QA s "倾向于修改细节,而 VLPrompt 则混合了这两类修改。
5 Conclusion
作者引入了一种新颖的假新闻生成策略 VLPrompt,并进行了大量测试,以评估其在欺骗人类和自动检测器方面的有效性。
结果表明,在检测 LLM 生成的假新闻方面一直存在困难。
为了提高检测能力,作者发布了一个数据集 VLPFN,其中包含真实新闻文章、人类创建的假新闻文章和 LLM 生成的假新闻文章(包括 VLPrompt 和所有其他实验方法生成的文章)。
该数据集以及从实验中获得的知识将为人类和自动探测器识别 LLM 生成的假新闻文章提供支持。
6 Ethical Consideration
为确保不会对医疗行业和新闻业造成潜在危害或不利影响,在假新闻生成阶段完全使用自己的机器。实验活动不会对这些行业造成任何威胁。数据集的发布遵守了新闻网站规定的 "使用条款"。此外,承诺对可能受此漏洞影响的新闻文章列表保密。
7 Limitation
研究提出了用于生成假新闻的 VLPrompt,并证明了 VLPrompt 生成的假新闻所带来的危害。
这项研究主要有两个局限性。可以使用更多的人类评估者来确认人类研究结果。然而,尽管存在上述问题,实验结果还是展示了足够的证据来支持假设,即 VLPrompt 生成的假新闻对当前的新闻事实核查系统构成了重大威胁。