论文阅读 - Let Silence Speak: Enhancing Fake News Detection with Generated Comments from Large Language

 论文链接: https://arxiv.org/pdf/2405.16631

目录

摘要

1 INTRODUCTION

3 PROPOSED FRAMEWORK: GENFEND

3.1 Multi-View Comment Generation

3.2 Multi-Subpopulation Feedback Understanding

3.3 Aggregation and Classification

 4 EXPERIMENTS

4.4 Effectiveness of Generated Comments (EQ3)

4.4.1 生成的评论与实际评论的比较。

4.4.2 沉默用户和活跃用户生成的评论的比较。

4.4.3 用户多样性的影响。

4.4.4 生成的评论对用户属性的符合性评估。

 5 CASE ANALYSIS


摘要

背景:

        假新闻检测在保护社交媒体用户和维护健康的新闻生态系统方面发挥着至关重要的作用。

动机:

        在现有的工作中,基于评论的假新闻检测方法被经验证明是有前途的,因为评论可以反映用户的意见、立场和情感,并加深模型对假新闻的理解

        不幸的是,由于曝光偏差和用户不同的评论意愿,现实中获得多样化的评论并不容易,特别是对于早期检测场景。在没有获得“沉默”用户的评论的情况下,感知到的意见可能是不完整的,从而影响新闻真实性的判断。

方法:

        在本文中,作者探讨了寻找替代评论来源的可能性,以保证不同评论的可用性,尤其是来自沉默用户的评论。具体来说,建议采用大型语言模型(LLM)作为用户模拟器和评论生成器,并设计 GenFEND,一个生成反馈增强的检测框架,它通过提示具有不同用户配置文件的 LLM 并聚合来生成评论。来自多个亚群体的评论。

        实验证明了 GenFEND 的有效性,进一步分析表明生成的评论覆盖了更多样化的用户,甚至可能比实际评论更有效。

1 INTRODUCTION

        虚假新闻在社交媒体平台上的迅速传播可能会在短时间内导致重大损失[45, 48]。例如,一篇报道白宫发生爆炸的假新闻引发恐慌,导致道琼斯指数在短短两分钟内下跌100点[9]。更严重的是,恶意使用大语言模型(LLM)有利于假新闻的制造,并可能在不久的将来带来更大的风险[3,5,17,59]。尽管建立举报机制[58]、进行事实核查[49]等人为对策已被采用,但其不可避免的滞后效应使得难以尽早实现遏制假新闻的最终目标。因此,最近的研究集中在自动假新闻检测上。

        现有的假新闻检测方法一般依赖于分析新闻内容或引入外部资源作为参考[41]。

        在这些资源中,社交媒体用户的评论发挥着宝贵的作用,并且已显示出有希望的帮助[31]。基于评论的方法的独特优势可以归因于群体智能的支持,它反映了各种用户对新闻的理解,例如观点[66]、立场[29]和情绪[71]。通过感知和聚合人群信号背后的模式,探测器可以更轻松地区分真实新闻和虚假新闻。

GAP:

        不幸的是,在现实场景中,维持用户评论的数量和质量是很困难的,原因如下:

        (1)在新闻传播的早期阶段,不太可能吸引广泛的受众发表评论。

        (2)即使经过一段时间的传播,由于特定用户本质上不愿意发表评论,因此可获得的评论仅反映了部分愿意发表评论的活跃用户群体的意见。例如,具有较高学历和专业知识的用户的评论可能有助于发现误导性的科学新闻,但此类用户可能很少查看和评论可疑的帖子。

        (3) 而且,可用评论的分布往往不稳定由于发布时间、推荐系统偏好等因素影响曝光偏差,使得探测器更难挖掘清晰、稳定的模式。例如,由于正式活跃用户的不活跃和关键评论的缺失,记忆的模式可能会无效。因此,由于评论有限,现有的基于评论的检测器只能对人群反馈进行有限的观察和偏见的理解,这最终会损害检测性能。找到真实用户评论的替代品,全面反映群体智慧,有助于对假新闻检测的深入理解。

解决方案:(生成评论增强检测)

        在本文中,利用大型语言模型(LLM)生成的注释作为替代方案。像 ChatGPT 这样的LLM在自然语言理解和生成方面拥有令人印象深刻的能力 [12, 47, 54, 57]。此外,LLM 可以在各种应用程序中按照特定指令模拟用户行为,例如对话 [22, 36, 62] 和推荐系统 [16]。沿着这条线,提示LLM通过扮演不同的用户来生成不同的评论,如图1所示。为了使用生成的评论来增强检测,解决了两个关键挑战:

        (1)如何使用LLM生成不同的评论?

        (2)如何有效利用意见?

        为了应对这些挑战,作者提出了生成反馈增强检测(GenFEND)框架,无论真实用户是否有实际评论,该框架都可以增强假新闻检测性能

                结合性别、年龄、教育程度等属性预先定义了不同的用户画像,并根据这些画像提示LLM通过对这些用户进行角色扮演来生成多样化的评论,以获得全面的用户反馈。

                提取所有生成评论的语义特征后,将它们分成每个人口统计视图下的多个子群体。

                进一步在每个子群体中进行平均操作以获得总体反馈并计算子群体水平的差异来表示差异

                生成的评论的最终表示是通过视图内和视图间聚合获得的。

实验证明了 Gen-FEND 在增强假新闻检测性能方面的有效性。主要贡献如下:

        想法:建议诱导LLM对社交媒体用户进行角色扮演,以生成不同的评论,以代替实际发布的评论来检测假新闻。

        框架:设计了GenFEND,一个生成反馈增强型假新闻检测框架,它生成不同的用户评论,从多子群体的角度对其进行分析,并聚合来自人口内部和人口间观点的派生特征。

        效果:实验证明了GenFEND 增强假新闻检测性能的有效性,并展示了LLM 生成的评论的独特价值。代码可在 https://github.com/ICTMCG/GenFEND 获取。

3 PROPOSED FRAMEWORK: GENFEND

        假新闻检测通常被表述为假新闻和真实新闻之间的二元分类任务[41]。给定一条新闻(并且引发评论),首先根据 o 生成一组评论C。利用学习到的新闻片段的特征e^o(实际评论的特征e_{actual}^c)和生成的评论的特征r,目标是学习仅内容模型f(e^o,r) \rightarrow y或基于评论的模型f(e^o, e^c_{actual}, r) \rightarrow y,其中y为真实性标签。图 2 概述了所提出的框架 GenFEND,它由多视图评论生成、多子群体反馈理解以及聚合和分类组成

(生成反馈增强检测 (GenFEND) 框架概述。

         (a) 多视图评论生成:预先定义具有三个人口特征(性别、年龄和教育程度)的不同用户档案;然后,通过对这些用户进行角色扮演,提示LLM 生成评论。

         (b) 多子总体反馈理解:将生成的评论分为每个视图的不同子总体组;提取每个子群体的语义特征s_p^{mean}以及每个视图V的多样性表示d^V

         (c) 聚合和分类:通过对每个视图 V 中的语义特征\{s_p^{mean}\}_{p \in \{1,..., m_V\}} 和新闻特征e^o之间进行点积运算来进行视图内聚合;执行视图间聚合以获得生成评论的最终特征,并以新闻特征和多样性表示 d= ⊕V ∈ { G,A,E }d^V 作为输入引导融合门;连接 r and e^o(如果可用e^c_{actual})进行分类)

3.1 Multi-View Comment Generation

纳入三种元素构建人设:

        给定一条新闻,目标是从不同类型的用户中产生不同的评论。首先选择三个典型的用户属性,即性别、年龄和教育程度,它们与真假新闻的差异密切相关

        现有研究表明,对于不同假新闻话题的讨论参与兴趣存在性别差异[2, 37],反映了不同的观点。控制性别属性可以捕捉这种差异以用于评论生成。

        此外,经验证明,年龄和教育水平与记忆和理解等认知能力相关,显着影响对假新闻的信念[10]。

        将这两个因素纳入其中,可以更好地覆盖特定假新闻的目标受众。

        这些属性当然可以来自单个用户,因此利用上述所有三个人口统计属性通过组合(由于成本的限制,没有涵盖所有可能的用户属性,而是根据现有研究选择了三个经常考虑的属性。)从多个视图设置用户配置文件。具体来说,这三个属性的分配是:

         • 性别:男性;女性。

        • 年龄:17岁以下; 18至29岁; 30至49岁; 50至64岁; 65岁以上。

        • 教育程度:大学毕业;大学尚未毕业;具有高中或以下文凭。

        通过结合不同的性别、年龄和教育程度分配,获得了 30 个不同的用户档案。

        然后使用这些组合来提示LLM 通过对 30 种类型的用户进行角色扮演来生成评论.

3.2 Multi-Subpopulation Feedback Understanding

        为了全面分析第 3.1 节中产生的用户反馈,建议从多子群体的角度理解这些评论,其中子群体组根据三个视图中的属性进行划分

        例如,从性别角度来看,有两个群体:男性和女性。给定新闻片段o并生成n个相应的评论 C = \{c_1, ..., c_n\},采用预先训练的句子转换器将评论编码为dim维嵌入 E^c = \{e^c_1,..., e^c_n \},其中 e^c_i \in R^{dim}, 1 ≤ i≤ n。

        将性别、年龄和教育观点分别表示为 G、A、E。对于每个视图 V ∈ {G, A, E},将用户评论C分为 V 个不同的子群体组,即C_1,...,C_{m_v} ,其中 C_1 \cup ... \cup C_{m_v} = C ,且C_pC_q= ∅( p≠q 。这里,G = 2,A = 5,E = 3。子群体组C_p中相应的评论嵌入表示为 E^{c_p} = \{e^c_i\}_{c_i \in C_p} 。为了感知不同群体的评论所反映的反应,采用两种操作来分别反映同一群体中用户之间的整体观点共享和不同群体之间的差异.

        整体语义特征提取。

        为了了解同一子群体中用户的总体观点,对每个子群体C_p的评论嵌入进行平均。视图 V 中子群体的语义特征表述为:

         其中 |E^{c_p} |是子群体中的评论数。

        多样性表示提取。

        不同亚群体之间观点的分歧表明特定观点下反馈的多样性。假设分布在评论嵌入空间中的不同维度代表不同的观点,并根据评论嵌入计算 KL 散度,以衡量每个观点的观点多样性。具体来说,对于每对子群体组 C_pC_q,分布散度计算如下:

         其中 E^{c_p}E_{c_q}分别是子群体中评论的嵌入, \hat{e}^c_i = Softmax(e^c_i),将嵌入转换为概率分布。 kl_div(·,·) 是 Kullback-Leiber 散度运算。在计算每对子种群之间的分布散度后,获得视图 V 的多样性表示 d_V如下:

         最后,获得每个子群体的语义特征s_p^{mean}和每个视图d^V的多样性表示.

3.3 Aggregation and Classification

        为了更好地增强假新闻检测性能,有必要生成可以代表多个子群体的用户反馈的高质量评论表示。需要注意的是,不同的观点有不同的分析视角,每种观点中不同亚群体的评论也反映了该观点的特点。因此,为了聚合多子群体的评论特征,需要考虑视图内聚合和视图间聚合

        视图内聚合。跨子群相关性可以在每个视图中提供补充信息。因此,作者设计了一个跨子群体融合模块来学习每个视图 V 的整体语义特征。具体来说,给定新闻的内容特征 e^o \in R^{dim} 和每个子群体的评论语义特征s_p^{mean},通过以下方式获得子群体的权重 w^V计算e^o 和 \{s_p^{mean}\}_{p\in\{1,..,m_V\}} 之间的点积,可以表示为:

         其中 s_{cat}^V \in R^{m_V \times dim} 表示视图 V 中所有子群体的语义特征的堆叠,dim 是评论特征的嵌入维度

        使用 V ,进行子群体级别的聚合以获得视图 V 的语义特征 s^V \in R^{dim} ,如下所示:

 

        视图间聚合。子群体层面的差异和新闻内容的主题可以帮助衡量不同观点的相对重要性。为此,利用视图门来自适应地聚合三个视图。使用新闻内容特征e^o \in R^{dim}和多样性表示 d = \oplus _{V \in \{A,G,E\}}d^V 作为输入来指导聚合。视图间聚合模块输出一个向量,表示特定新闻片段的每个视图的权重:

         其中G(\cdot ; \theta )是视门, \theta是视门的参数,视门是一个两层前馈网络。使用 Softmax(·) 对输出进行归一化,并且 a = [a^G, a^A, a^E]是表示每个视图重要性的权重向量。生成的评论的最终特征是:

         分类。通过聚合表示 ,可以预测新闻报道为假的概率:

 4 EXPERIMENTS

        实验旨在回答以下评估问题:

         EQ1 GenFEND 能否提高假新闻检测性能?

        EQ2 GenFEND 架构的效果如何?

        EQ3 生成的评论的效果如何?为什么?

4.4 Effectiveness of Generated Comments (EQ3)

        为了调查生成评论的影响,从三个方面进行分析:将生成的评论与实际评论进行比较(第4.4.1节),比较沉默用户和活跃用户的生成评论(第4.4.2节),分析用户的多样性(第4.4.2节)。 § 4.4.3),并评估生成的评论是否符合预定义的用户属性(§ 4.4.4)。

4.4.1 生成的评论与实际评论的比较。

        为了评估生成的评论与实际评论的效果相比,通过分别提供实际评论和生成的评论,采用 LLM w/ comment、BERT w/ GenFEND 和 dEFEND w/ GenFEND。为了获取实际评论的用户配置文件,通过调用 GPT-3.5-Turbo 的 API 来预测伪用户配置文件来提示:

         统计了每条新闻的实际评论的不同用户画像数量,发现微博21的30条评论中平均只有7,GossipCop的30条评论中只有3个被覆盖,这可能会导致多子群体反馈中存在许多空的子群体组。

        在这种情况下,尝试为所有子群体添加一个空字符串。从表6的实验结果中,发现:

(LLM w/ comment:零样本方法,直接提示LLM仅提供新闻内容和评论进行真实性判断;

        dEFEND [39]:开发用于假新闻检测的句子评论共同注意子网络的模型;)

        (1)对于BERT/dEFEND w/ GenFEND来说,几乎在所有情况下生成的评论都比实际评论带来更多的效果,这得益于生成的多样化评论的有效搭配以及以下内容了解程序;

        (2)当提供生成的评论而不是实际的评论时,LLM 在 GossipCop 上的表现更好,这显示了生成的评论本身的有用性。然而,微博21的情况有所不同。推测这是因为微博21的实际评论中的模式更容易捕获并且与生成的评论中的模式不同

4.4.2 沉默用户和活跃用户生成的评论的比较。

        根据第4.4.1节中获得的实际评论者的伪档案,将与实际评论者具有相同档案的用户视为“活跃用户”,将其他用户视为“沉默用户”。

        为了证明 GenFEND 中不同用户的重要性,研究了沉默用户和活跃用户生成的评论分别如何对 GenFEND 做出贡献。

        通过参考实际评论者的伪档案,将生成的评论分为两类:沉默和活跃用户的评论,并进行实验来评估其影响。

        具体来说,采用 BERT w/ GenFEND 和 dEFEND w/ GenFEND 进行评估。

        根据表7所示的结果,有以下发现:

        (1)与利用所有生成的评论相比,仅利用活跃用户的评论或沉默用户的评论会导致性能下降,这表明无论是沉默用户还是活跃用户具有积极和互补的作用。

        (2)在大多数情况下,使用生成的沉默用户评论的模型优于使用活跃用户评论的模型,显示出前者的优越实用性。这证实了考虑潜在的沉默用户并生成现实中无法访问的评论有助于假新闻检测。

4.4.3 用户多样性的影响。

        为了对用户多样性的影响进行定量分析,对涵盖不同数量的用户类型的三组生成的评论进行了实验。

        具体来说,除了主实验中生成的评论(表2)外,还提示LLM为每种类型的用户生成另外两条评论,总共获得90条生成评论。为了公平比较,保证三组总共包含相同数量的评论(此处为 30 条),即组 1 为 30 个不同用户 × 每个用户 1 条评论,组 2 为 15 × 2,组 2 为 10 × 3对于组 3。使用组 1 的全套用户类型,从 30 种类型中随机选择 15 种作为组 2,然后再次为第 3 组随机选择 15 个中的 10 个。

        在第 1 组的主要实验中重复使用相同的 30 个生成的评论。如图 4 所示,提供了三组评论,BERT w/ GenFEND 的宏 F1 分数当(不同类型的)用户数量减少时,即使每个用户提供了更多评论,评论也会减少。这证实了我们最初的假设,即用户多样性对于假新闻检测中的评论生成非常重要。

4.4.4 生成的评论对用户属性的符合性评估。

        设置了人工评估来衡量生成的评论如何符合指定的用户属性。具体来说,使用来自 Weibo21 和 Gossip-Cop 的 300 条生成评论的子集(每条 150 条),涵盖了所有 30 个用户类型。给定一条新闻及其相应生成的评论,要求参与者判断给定评论有多大可能来自具有预定义属性的用户(不太可能/可能/非常可能)。招募了 20 名参与者(有社交媒体讨论经验),每个人平均在一小时左右完成任务,并获得每小时收入。如图5所示,生成的评论的评分与用户属性高度一致,保持了用户和评论的多样性 

 5 CASE ANALYSIS

        作者分析了测试集中的三个案例,旨在了解生成的评论的单独有用性,而不是生成的评论和反馈理解的复合效果(表8)。预测来自 dEFEND,实际或提供混合的(实际的和生成的)评论。

        在案例1(真实新闻)中,实际评论大多是质疑语气,因此并不多样化,可能导致模型的误判。

        相反,生成的评论提供了额外的积极反馈,有助于纠正预测。

        这表明对用户反应的部分观察可能会对辨别真假产生负面影响,特别是当评论分布过于偏见时。

案例1)真实消息:很多人认为酸奶富含益生菌,可以平衡肠道菌群,促进肠道蠕动。事实上,研究发现酸奶并不能改善消化。

实际评论:❶嗯,这是我第一次听说。 ❷真的吗?

生成的评论: ❶ 事实证明,喝酸奶不一定能促进消化。知识收到了!我平时喜欢喝酸奶。看来我的饮食需要多加注意了。

❷ 原来如此。我曾经相信酸奶有助于消化。看来我们应该多注意食物搭配,不能只依赖酸奶。

❸ 我一直认为酸奶有助于消化。看来以后选食物的时候还需要学习更多的专业知识。我会转发给大家。别再被错误的知识误导了!

        不同的是,假案例(案例2)引发了更多怀疑和质疑语气的评论,帮助模型最终纠正了预测。这两个案例证实了LLM生成的评论在帮助检测方面的潜力,特别是当实际评论并不多样化甚至不可用时。

(案例2)假新闻:有传言称造成车祸的玛莎拉蒂女司机患有精神疾病。

实际评论: ❶ 有钱能使鬼推磨。 ❷ 就这么简单。她有一个当权的父亲! ❸ 每次出了问题,他们都会用这个借口。他们就不能找到一些新的吗?如果她有精神病,那就让她住精神病院吧!

已生成评论: ❶ 太离谱了!怎么会有人以精神疾病为借口呢? ❷ 可靠吗?如果真是这样的话,情况就复杂了。希望有关部门能够提供准确的查询结果。 ❸ 天啊。怎么会这样?希望它能尽快洗出来

案例3是一个失败案例。将失败归因于用户反应的覆盖范围有限,主要是表达愤怒、讽刺和厌恶。没有发现生成的评论质疑潜在的新闻意图,最近认为这对于此任务很重要

(案例3,失败案例) 假新闻:最近在广州。来自英国的女外教李老师,主要担任学生的现场辅导工作。尽管她的课程费用昂贵,但她仍然很受学生欢迎。然而,这位外教的绝招就是和英语成绩好的人发生关系!一位家长发现了这一情况并报了警。进一步调查发现,另外五名学生也有同样的经历。这样的“奖励”几乎闻所未闻。这么贵的外语老师竟然做出这样的恶行,实在是太卑鄙了。

实际点评: ❶ 那么孩子们的英语成绩有提高吗? ❷哈哈!真是德性与艺术的“结合”! ❸ 身教?

生成评论: ❶ 这也太可怕了,怎么会有这样的老师?这不是教育。这是犯罪行为!希望这种行为能够受到法律的严惩,保护孩子们的安全! ❷这完全是道德败坏,法律决不能手软。 ❸ 这太令人震惊了!作为一名教师,利用职务之便做出这样的事情,对学生、对社会确实是不负责任的行为

 

  • 12
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值