论文阅读-From Creation to Clarification: ChatGPT’s Journey Through the Fake News Quagmire

最新推荐文章于 2024-08-16 18:13:47 发布

无脑敲代码，bug漫天飞

最新推荐文章于 2024-08-16 18:13:47 发布

阅读量810

点赞数 25

分类专栏：谣言检测虚假信息检测文章标签：人工智能

本文链接：https://blog.csdn.net/qq_40671063/article/details/138973743

版权

谣言检测同时被 2 个专栏收录

6 篇文章 9 订阅

订阅专栏

虚假信息检测

6 篇文章 6 订阅

订阅专栏

论文链接： From Creation to Clarification: ChatGPT's Journey Through the Fake News Quagmire | Companion Proceedings of the ACM on Web Conference 2024

摘要

1 INTRODUCTION

2 FAKE NEWS GENERATION

3 假新闻的解释

4 假新闻检测

5 CONCLUSION

摘要

作者探讨 ChatGPT 在生成、解释和检测假新闻方面的能力，具体如下。

生成--采用不同的提示方法生成假新闻，并通过自我评估和人工评估证明了这些实例的高质量。

解释--根据 ChatGPT 的解释获得九个特征来描述假新闻，并分析这些因素在多个公共数据集中的分布情况。

检测--研究了 ChatGPT 识别假新闻的能力。

作者提出了一种理由感知提示方法来提高其性能。进一步探究了可提高其检测假新闻效率的潜在额外信息。

1 INTRODUCTION

假新闻已经引起了全世界的高度关注[ 10 ]。最近，ChatGPT 因其在不同领域的卓越表现而广受赞誉。由于其受欢迎程度和强大的功能，ChatGPT 为假新闻研究领域带来了机遇和挑战。

探索和了解 ChatGPT 生成假新闻的能力：

尽管 LLM 潜力巨大，但最近的研究[6]也提出了对 LLM 被恶意利用的担忧。因此，探索和了解 ChatGPT 生成假新闻的能力对于解决这一严重问题至关重要。

解释和检测假新闻的能力：

除了通过 Chat- GPT 生成假新闻之外，还应该利用其解释和检测假新闻的能力。

利用 ChatGPT 来理解假新闻，通过提供能证明一定理解能力和推理能力的解释。

制定增强其检测能力的策略：

此外，研究 ChatGPT 在假新闻检测方面的性能、识别其局限性并制定增强其检测能力的策略也至关重要。

贡献可以概括如下：

(1) 研究了 ChatGPT 使用不同提示方法生成假新闻的能力，自我评估和人工评估的结果表明，生成的样本质量很高。

(2) 研究了 ChatGPT 解释虚假新闻的能力，并总结了九个数据集中定义虚假新闻的九个特征，这为今后的工作提供了一些启示。

(3) 评估了 ChatGPT 在检测假新闻方面的有效性。

（4）根据上述解释总结出的特征，提出了一种理由感知提示方法，以增强其检测能力。此外，还探索了其他信息，以帮助 ChatGPT 更有效地检测假新闻。

2 FAKE NEWS GENERATION

提示方法, 四种方法来促使 Chat- GPT 生成假新闻、绕过其审核机制以及从人类反馈中强化学习（RLHF）。

(a) 改变文本含义：这涉及修改原始文本的含义，以生成可能与事实相悖的内容，从而可能导致假新闻。

(b) 编造故事：通过提供目标故事的大纲并促使 ChatGPT 将其充实，所生成的带有虚假信息的故事可被视为假新闻。

(d) 多重提示：三步提示策略可生成有针对性的假新闻，从而躲过 ChatGPT 的过滤。

首先是 "主题提示"，将对话引向与新闻相关的主题；然后是 "深度提示"，生成具体的新闻文章；最后是 "新闻增强提示"，添加时间、地点和媒体来源等细节元素，增强文章的真实性和可信度。

生成样本的质量:

作者使用上述方法生成了 40 篇假新闻。为了评估 ChatGPT 的生成质量，进行了自我评估和人工评估：

自我评估：在自我评估中，使用 ChatGPT 本身进行假新闻检测。为了尽量减少对话过程中上下文语义的影响，在评估过程中为每个样本创建了新的对话。此外，为了获得更真实、更准确的结果，将 ChatGPT 的输出分为三个不同的类别：假新闻、真新闻和不确定。作者使用了一个提示模板，例如 "请评估以下新闻的真实性。您可以回答'假'、'真'或'不确定'"。实验结果显示，在 40 个假新闻样本中，ChatGPT 准确识别出 29 个假新闻实例（成功率为 72.5%）。不过，它将 9 个实例判定为真实新闻，将 2 个实例判定为不确定实例，这表明它在检测自己生成的内容时有一点困难。

人工评估：为了评估 Chat- GPT 生成的样本在现实世界中的有效性，通过发放调查问卷的方式进行了人工评估。在人工评估过程中，收集了 294 个数据项，其中 223 个与假新闻有关，71 个与真新闻有关。总体而言，发现人类识别生成的假新闻的准确率仅为 54.8%，这凸显了将这些实例区分为假新闻所面临的挑战。值得注意的是，有一个样本的准确率最低，33 个判断中只有 10 个是正确的（准确率仅为 33.3%）。这表明，一些生成的样本有效地欺骗了人类的判断。此外，作者还研究了人类认为给定新闻是假新闻的原因：

结果如下： 事实冲突 (18.4%)、不权威或非正式表达 (23.9%)、过度简化或情感偏差 (13.5%)、缺乏证据或可信来源 (36.2%)、缺乏背景 (6.1%) 和其他 (1.9%)。"缺乏证据或可信来源 "是主要原因，占 36%。这一发现与第 3 节中的观察结果一致，强调了加入更多细节以提高迭代质量的重要性。排在第二位的因素是 "非权威或非正式表达"，这表明 ChatGPT 在生成类似新闻的内容时需要加强语言风格。此外，"事实冲突 "占到了 18%，这意味着生成的新闻可能存在事实不一致的情况，突出了事实检查对其输出的重要性。总之，上述结果表明，利用某些提示方式，ChatGPT 可以生成高质量的假新闻，与真实世界的新闻非常相似。

3 假新闻的解释

将评估 ChatGPT 就特定假新闻提供解释的能力。目标是研究有助于定义假新闻的因素。解释过程包括两个阶段：原因总结和原因选择。通过分析这九个因素的分布情况，发现这些原因（因素）在不同程度上构成了假新闻的特征，可以为今后的工作提供启示。

原因总结与原因选择：

首先，从九个公开数据集中选取假新闻，要求 ChatGPT 解释这些新闻为什么是假的。

然后，从这些解释中选取一个子集，对其进行人工总结，得出基本原因。

征求 ChatGPT 的意见，以确定这些理由是否有重叠之处，并提出其他理由。

经过这一过程的多次反复，最终确定了 ChatGPT 为某条新闻是假新闻提供的九条理由。

表 1 总结了这九个可以解释的原因：

在总结解释之后，要求 ChatGPT 从这九个选项中选择原因（可能会选择多个选项），或者在出现假新闻样本时，如果所列选项均不适用，则提供其原因。单一选项在不同数据集中的分布如图 2 所示。字母 A 至 I 分别代表九个理由，J 代表其他理由。

分析：在图 2 中，注意到九个数据集的选项分布基本相似，具体选项的分布略有不同。在几乎所有数据集中，原因 B（即 "未提供相关证据"）是假新闻最普遍的特征。这一观察结果与之前一些侧重于使用证据信息的研究结果[4, 7]相一致。相反，在 Covid-19 数据集中，选项 A（即 "误导意图"）排名最高，这意味着该数据集中的许多假新闻可能具有煽动恐慌或炫耀等意图。

这一发现凸显了在新闻中考虑情感信息的重要性，正如之前的研究[9]所指出的那样。此外，作者还发现，原因 D（即 "语言风格"）是大多数数据集中第三大最常见的原因，尤其是在 FakeNewsNet 数据集中，原因 D 和 B 几乎同样普遍。这一观察结果表明，利用新闻的线性风格可以提高假新闻的检测率。此外，还注意到，与其他数据集相比，Covid-19 和 Liar 中原因 C（即 "事实错误"）的比例相对较高。这一趋势可能是由于这些数据集中经常出现事实错误。例如，Covid-19 数据集中包含了明显与事实冲突的内容，如关于 5G 可以传播 Covid-19 的新论断，展示了 ChatGPT 一定的事实检查能力。

4 假新闻检测

在本节中，提出了一种基于总结假新闻背后原因的原因感知提示方法，以增强其去检测能力。

实验设置。为了减轻 ChatGPT 的一致性对检测的影响，除了 2 类任务外，还引入了 3 类任务，即 ChatGPT 预测样本是 "真"、"假 "还是 "不清楚"。为了评估 ChatGPT，对两类任务和三类任务使用了不同的指标。

对于 2 类任务，使用准确率和 F1 分数。

对于 3 类任务，指标包括：

Acc-1（不包括 "不清楚 "预测的准确率，作为二元任务分析）

Acc-2（将 "不清楚 "预测视为错误的准确率）

Acc-3（去除 "不清楚 "预测并平衡样本比例（1:1）后重新计算的准确率）和 F1 分数。

Acc-2 衡量 ChatGPT 将预测标注为 "不明确 "的倾向，而 Acc-3 则旨在消除不确定样本带来的偏差

共振感知提示：

作者提出了一种理由感知提示方法，以提高 ChatGPT 在检测能力。

当使用正常模板时，ChatGPT 对假新闻的召回率明显偏低，这表明 ChatGPT 往往会将假新闻误判为真新闻。作者认为这可能有两个原因：

第一，ChatGPT 对假新闻的明显特征缺乏全面了解；

第二，ChatGPT 在检测假新闻时趋于保守（预测为 "真 "的次数多于 "假"）。

为了解决这些局限性并提高 ChatGPT 的检测能力，引入了一种理由感知提示方法，如图 1 所示：

分析结果：

九个不同数据集的结果如表 2 和表 3 所示，包括两类任务（无 "不清楚 "预测）和三类任务（有 "不清楚 "预测）：

可以看出，ChatGPT 在检测假新闻方面表现出了较强的能力，但仍有改进的余地。总体而言，ChatGPT 在一些数据集上取得了令人满意的结果，在 3 类场景中，11 个测试数据集中有 8 个数据集的 Acc-1 超过了 70%，最高准确率达到了 82.6%。尽管如此，在某些数据集上，如 "骗子 "数据集和 "中国谣言 "数据集，仍有改进的余地。此外，还发现，与 Acc-1 和 Acc 相比，引入 "不明确 "类提高了 Chat- GPT 的预测性能。这表明 ChatGPT 对某些样本的不确定性会对预测准确性产生负面影响。

此外，在大多数数据集上，理由感知提示增强了 ChatGPT 的假新闻检测能力。作者观察到，使用理由感知提示后，所有数据集上的 2 类预测结果都有明显改善。此外，在大多数数据集上，理由感知提示也改善了三类结果。具体来说，Kaggle 数据集的改进幅度最大，Acc 的改进幅度为 19.7%，Acc-1 为 9.2%，Acc-2 为 14.5%，Acc-3 为 14.6%。此外，包括上下文和评论在内的额外信息也普遍增强了 ChatGPT 的假新闻检测能力。比较（w/o）和（w/）的结果，中国谣言数据集和微博 21 数据集在使用附加信息时，各项指标都有显著改善。这意味着附加信息可以增强对新闻的语义理解。

不明确预测背后的更多信息。为了探索如何减少 ChatGPT 在三分类任务（"真"、"假 "和 "不清楚"）中预测的 "不清楚 "标签，向 ChatGPT 提出了一个问题： "您还需要哪些信息才能做出更准确的判断？

对于被归类为 "不清楚 "的样本，作者会向 ChatGPT 提出这样的提示。为 ChatGPT 提供了四个预定义选项供其选择，这些选项列于方框 4：

A: 外部知识指事实信息、专家建议或数据可靠性。

B: 多模态信息包括图片、视频或音频。

C: 上下文信息包括评论、转帖、发布时间或发布地点。

D: 发言人信息包括用户行为、社交媒体账户信息或用户发帖历史。

然后，测量了它们在不同数据集上的比例（如表 4 所示）。

发现在大多数数据集上，选项 A 的排名始终最高，这意味着 ChatGPT 缺乏一些外部知识来准确评估新闻的真实性。要解决这一难题，可以通过引入额外的知识（如知识库）。在不同的数据集中，选项 A、C 和 D 往往排在第二位。例如，在处理来自社交媒体的假新闻时，人们可能需要考虑使用与评论[3, 8]、转贴或帖子（选项 C）相关的信息，或者考虑用户的偏好[2]和用户资料[5]（选项 D）。

5 CONCLUSION

在本研究中，作者探索了 ChatGPT 在生成、解释和检测假新闻方面的能力。本文为智能信息治理提供了见解并强调需要进一步研究以充分利用LLM的能力

无脑敲代码，bug漫天飞

关注

25
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
论文阅读-From Creation to Clarification: ChatGPT’s Journey Through the Fake News Quagmire

作者探讨 ChatGPT 在生成、解释和检测假新闻方面的能力，具体如下。生成--采用不同的提示方法生成假新闻，并通过自我评估和人工评估证明了这些实例的高质量。解释--根据 ChatGPT 的解释获得九个特征来描述假新闻，并分析这些因素在多个公共数据集中的分布情况。检测--研究了 ChatGPT 识别假新闻的能力。作者提出了一种理由感知提示方法来提高其性能。进一步探究了可提高其检测假新闻效率的潜在额外信息。
复制链接

扫一扫

专栏目录