Zero-Shot Rumor Detection with Propagation Structure via Prompt Learning(论文解读)

本文探讨了一种名为RPL的框架,用于社交媒体上的零样本谣言检测,通过分离共享语义和语言特定句法,增强提示与谣言数据的语义交互。研究者利用传播线索、响应排名和虚拟响应增强策略,构建了一个鲁棒的模型,实现在不同语言和领域间的谣言检测。实验结果表明,RPL在多个基准测试中表现出色,尤其在早期传播阶段有高泛化能力。
摘要由CSDN通过智能技术生成

Introduction(介绍)

本篇论文中,专注于探讨用于零样本谣言检测的有效提示方法,涉及语言和领域的转移。可以解耦共享的语义信息和特定语言中的句法偏差,从而增强提示与谣言数据之间的语义交互。此外,由于谣言的传播通常遵循空间和时间关系,这些关系提供了有关主张如何传播的有价值线索,而与特定领域无关。为此,提出了一种零样本响应感知提示学习(RPL)框架,用于在社交媒体上检测跨语言和跨领域的谣言。 

解释:

将共享的语义信息(文本的含义)和特定语言中的句法偏差(特定语言的语法结构差异)分开,不让它们混在一起。这样做的目的是为了在生成提示(prompt)和谣言数据之间建立更好的语义交互,不受特定语言的语法差异的干扰。

零样本谣言检测任务(ZRD)旨在将源谣言数据中学到的知识适应到目标数据中,而目标语言和领域中没有标记的训练样本。

具体流程:

训练时,模型接收一段文本,并在其中随机选择一些词汇进行掩盖。模型的任务是根据上下文预测这些被掩盖的词汇。然后进行预训练得到通用的语言表示。

Problem Statement and Background(问题陈述和背景)

在这项工作中,将零样本谣言检测任务定义为:给定一个源数据集,对目标数据集中的每个事件进行分类,判断其是否为谣言。源数据集和目标数据集来自不同的语言和领域。

具体而言:

源数据集,定义为一组事件表示为 $\mathcal{D}_{s}=\left\{C_{1}^{s}, C_{2}^{s}, \cdots, C_{M}^{s}\right\}$,每个事件是一个三元组表示为,其中表示一个真实性标签{谣言,非谣言}与主张(是某一事件或主题中的论述或陈述,它可以是一个观点、说法或声明)相关,以及理想情况下按时间顺序排列的所有相关响应微博帖子(m为响应帖子的数量)。

目标数据集,定义为一组事件表示为,每个事件是一个二元组表示为(与源数据集相似)。

这个任务可以被建模为一个监督分类问题,训练一个语言/领域无关的分类器 ,将从源数据集学到的特征迁移到目标事件,即

在这项工作中,我们将谣言检测转化为一种填空式掩码语言建模问题。例如,给定一个填空式模板 (例如,"For this [MASK] story." 作为提示,与主张 c 拼接成 $\hat{c}$),标准的提示学习利用预训练语言模型(PLMs)获取[MASK]令牌的隐藏状态,推断填充[MASK]的谣言指示性词语。

标签 $y$的概率为

公式解释:

其中$\mathcal{V}$是一组与谣言相关的标签词语,$\mathcal{V}_{y}$是与 $y$对应的 $\mathcal{V}$的子集,$g(\cdot)$是一个手动的语言表达器,将标签词语的概率转换为标签的概率。通过这种方式,我们可以将对[MASK]的预测词映射到真实性标签,从而对主张做出决策。

Approach(方法)

模型结构图: 

Response Ranking:

为了突显社交背景,增强事件的上下文表示学习,提出通过关注证据性响应来实现。核心思想是基于不同的传播线索对所有响应进行排名。

时间序列

假设随着时间的推移,响应性帖子对事件的态度会变得更倾向于一方,因此响应性帖子可以按照时间顺序和时间序列的反向顺序进行排序。分别为

按时间排序
$\mathcal{T}(c)=\left[x_{1}, x_{2}, \cdots, x_{m}\right]$
按时间序列的反向顺序
$\mathcal{T}(c)=\left[x_{m}, x_{m-1}, \cdots, x_{1}\right]$

传播树

除了时间顺序的角度外,进一步将传播线索表示为树结构$\mathcal{T}(c)=\langle\mathcal{G}, \overrightarrow{\mathcal{E}}\rangle$$\mathcal{G}$是一组节点,每个节点代表c的一个响应性帖子。$\overrightarrow{\mathcal{E}}$$\mathcal{G}$中节点之间响应关系的有向路径集合。

采用深度优先

深度优先搜索研究了信息从祖先流向子节点的传播模式。

以上述原理图为例:响应排名的深度优先顺序是$\left[x_{1}, x_{2}, x_{5}, x_{3}, x_{4}, x_{6}\right]$

采用广度优先

广度优先搜索优先考虑了兄弟节点之间的用户意见交互。

以上述原理图为例:响应排名的深度优先顺序是$\left[x_{1}, x_{3}, x_{2}, x_{4}, x_{5}, x_{6}\right]$

Hierarchical Prompt Encoding

如果直接利用现有词汇中的标记,如专业术语或特定语言俚语,作为模板,将导致对特定语言的语法产生偏见。虽然软提示能解决上述问题,但是这与零样本是相悖的。

名词解释:

离散提示:需要母语专家为不同语言设计与谣言相关的模板/规则

软提示:使用在大型数据集上训练的优化的标记表示

PLMs的较低层可以捕捉语法级别的特征,而PLMs的较高层可以建模语义级别的特征。基于PLMs,提出了用于在句法和语义层面进行语言无关表示学习的分层提示编码(HPE)机制。方法中,假设虽然句法是语言相关的,但语义信息可以在不同语言之间共享。

SynEncoder层

分别复制并冻结了来自多语言PLMs编码器的前$k$层的参数。

对模板进行编码

公式解释:

$X_{p} \in \mathbb{R}^{|p| \times d}$是模板嵌入,$d$是SynEncoder输出状态的维度。

$R$表示响应(responses)的数量,具体而言。

$X_{p}$是一个矩阵,其中每行对应于一个响应,每列对应于嵌入空间中的一个维度。

$d$是嵌入空间的维度。

对事件进行编码

由于所有响应性帖子在训练或测试阶段都以与声明相同的语言和领域呈现,我们可以将它们连接在相同的冻结参数后的SynEncoder中。

公式解释:

$[\cdot, \cdot]$表示拼接操作(垂直拼接和水平拼接)。

$X_{c r} \in \mathbb{R}^{o \times d}$是事件的嵌入。

$o$是PLMs的最大序列长度。

其中因为PLMs的输入长度有限制,保留那些上下文连贯的帖子。 

SemEncoder层

希望在不同语言之间共享语义信息。

在语义层面上,初始化了一个可训练的语义编码器(用来捕捉模板和事件在语义上的交互,其位于PLMs的顶层(第$(k+1)$层)。

然后,在冻结的SynEncoder之上,连接并调整模板和事件的输出状态,以进一步建模模板与事件之间的语义交互。

公式解释:

$H$ 表示语义交互的向量

Propagation Position Modeling

为了弥合社交媒体上零样本谣言检测中的提示学习和传播结构之间的差异,进一步提出了绝对和相对传播位置建模,将传播信息注入可调整的SemEncoder以在语义层面进行领域不变的结构特征提取。

名词解释:

提示学习和传播结构之间的差异:

语言和域差异: 社交媒体上的不同事件可能涉及不同的语言和领域,因此提示学习需要考虑如何在不同语言和领域之间进行泛化。提示是用来引导模型执行某项任务的文本片段,而社交媒体上的谣言可能以多种语言和形式出现。

传播结构的多样性: 社交媒体上的信息传播往往是复杂的,涉及到用户之间的互动、信息的传递路径等。不同事件可能有不同的传播结构,包括信息的扩散模式、时间线等。传播结构提供了关于事件演变的重要线索,但不同事件的传播结构可能存在显著差异。

对于绝对传播位置

给定来自帖子$x_{i}$的令牌$q$,我们将事件的主张$c$视为根,并使用响应路径从当前帖子到根的距离作为绝对传播位置:,其中tree是传播结构$\mathcal{T}(c)=\langle\mathcal{G}, \overrightarrow{\mathcal{E}}\rangle$,使同一帖子中的令牌共享传播树中帖子的传播位置。我们通过将$X_{cr}$中相应令牌的嵌入和其绝对位置嵌入相加来更新令牌$q$的可调整SemEncoder的输入表示,其中绝对位置嵌入使用可学习的参数进行训练。

名词解释:

我们使同一帖子中的令牌共享传播树中帖子的传播位置:

举例说明:考虑一个帖子包含两个回复:“回复1”和“回复2”。每个回复中有若干令牌。在传播树中,假设“回复1”对应于传播树中的节点A,而“回复2”对应于节点B。如果帖子中的两个令牌分别来自这两个回复,那么它们在传播树中将被视为共享相同的传播位置,即节点A和节点B的位置。

优点:这种做法有助于模型更好地理解同一帖子中的不同令牌之间的传播关系,从而更好地捕捉事件的上下文信息。

对于相对传播位置

主要关注传播树中响应性帖子的局部上下文作为其相对传播位置。

对于帖子$x_{i}$,我们将考虑子树中五种关系的相对传播位置:1)Parent$^{(+)}$$^{(+)}$;2)Children$^{(-)}$;3)Siblings$^{(+)}$;4)Siblings$^{(-)}$;5)Itself,其中$^{(+)}$/$^{(-)}$表示相对帖子在子树中出现在当前帖子之前/之后。然后,扩展自注意力计算以考虑在同一子树中帖子之间的成对关系,将相对传播位置投影到SemEncoder中。通过这种方式,可以明确捕捉局部子树中的相对传播模式,因为用户共享对同一子树根的意见,以交叉检查不准确的信息。

名词解释:

Reply 1

|

|-- Reply 1.1

|

|-- Reply 1.2

交叉检查不准确的信息:如果用户在 Reply 1.1 中提到了一些信息,而 Reply 1.2 中提到的信息与之矛盾,模型可以通过这种方式检测到不一致性。这就是所谓的 "交叉检查不准确的信息",即模型通过比较同一子树中不同回复的观点,来验证信息的准确性。

Response Augmentation

由于模型可能受到嘈杂响应的影响,提出通过创建额外的对抗性示例来增强提示学习。

介绍了一种新的虚拟响应增强算法,ViRA。

首先,创建对抗性示例,想测试模型在面对可能降低性能的情况下的表现。使用一种快速梯度值的方法,帮助找到一个对模型来说性能最差的扰动(改变输入数据的一小部分),这样我们就可以了解模型的鲁棒性。

由于不同数据和模型之间嵌入向量的范围(数值的变化范围)不同,对于大型模型,范围的变化可能很大,这导致对抗性训练的不稳定性。为了解决这个问题,我们首先对嵌入向量进行层归一化,这有助于将值范围规范化为一个随机向量。然后,我们执行蒙版操作,将这些向量中与模板和主张相关的部分过滤掉,最后将扰动添加到响应帖子的向量中。

名词解释:

层归一化: 在深度学习中,归一化是一种将输入数据标准化的方法。层归一化是一种特定类型的归一化,它帮助将嵌入向量的值范围规范化为一个随机向量,以便更好地处理不同数据和模型之间的变化。

蒙版操作: 想象一下,你有一个向量,其中包含与模板和主张相关的信息。执行蒙版操作就像是把一个遮罩放在向量上,只保留与模板和主张无关的部分。

Model Training

防止与谣言相关的标签词汇过于依赖语言特定的专业术语,引入了一种原型化的表达方式,核心思想是利用来自相同类别的实例的代表性特征来封装事件级别的语义特征,而不是依赖于与语言相关的标签词汇。

最小化原型损失

给定训练样本$C_{i}$$[M A S K]$标记表示 $H_{i}^{m}$,如下所示:

公式解释:

其中$y$$H_{i}^{m}$的真实标签,$\mathcal{S}$表示归一化余弦相似度得分。$l_{y}$表示类别 $y$ 的可学习原型向量,它是属于该类别的嵌入支持点的簇代表。$l_{y'}$是类别 $y'$的可学习原型向量。通过优化上述目标函数$\mathcal{L}_{\text {proto }}$,谣言特征可以在语义空间中接近相应的谣言原型,并远离非谣言原型。

采用对比损失

拉升批处理中实例的类内方差并减小类间方差:

 公式解释:

$B_{y_i}$:表示在一个批次(batch)中,属于类别 $y_i$ 的源示例(source examples)的数量。

$i$$j$:表示在批次中的不同示例的索引。

$\mathbb{1}_{[i \neq j]}$:是一个指示函数,当$i$不等于$j$时为1,否则为0。用于确保对比损失仅考虑不同的实例。

$\mathbb{1}{\left[y{i}=y_{j}\right]}$:是一个指示函数,当$y_i$ 等于 $y_j$(两个实例属于同一类别)时为1,否则为0。用于确保对比损失仅在同一类别的实例之间计算。

$\mathcal{S}\left(H_{i}^{m}, H_{j}^{m}\right)$:表示嵌入表示$H_{i}^{m}$$H_{j}^{m}$之间的归一化余弦相似度。

将原型损失和对比损失结合在一起进行训练

$\mathcal{L}=\alpha \mathcal{L}{\text {proto }}+(1-\alpha) \mathcal{L}{\text {con }}$ ($\alpha$为权衡参数设置为0.5)

然后基于响应增强生成一个伪增强样本,送到可调整的SemEncoder以计算新的损失 $\tilde{\mathcal{L}}$,然后使用平均损失$\mathcal{L}_{\text {avg }}=\operatorname{mean}(\mathcal{L}+\tilde{\mathcal{L}})$,反向传播使用AdamW优化器进行,SynEncoder的层数$k$被设置为6。学习率初始化为1e-5。为了避免过拟合,应用了早停策略

名词解释:

AdamW优化器: AdamW 是一种用于梯度下降的优化算法,它结合了动量和自适应学习率。在这里,作者使用AdamW来更新模型的参数,以最小化损失函数。

早停策略: 早停是一种防止模型过拟合的策略。在训练过程中,模型在验证集上的性能被监测,如果性能在一定时间内没有提升,训练就会提前停止,以避免在训练数据上过度拟合,而不能泛化到新数据。

Experiments(实验)

数据集

TWITTER、WEIBO、Twitter-COVID19和Weibo-COVID19。新建CatAr-COVID19(包含粤语和阿拉伯语的多种语言文本主张,没有传播线索)

实验设置

将模型与几种最先进的零样本谣言检测系统进行了比较:

1) Vanilla-Ft:通过在PLMs(Devlin等,2019年)的顶部添加一个特定于任务的线性层与[CLS]标记,对模型进行微调以进行分类;

2) Translate-Ft:利用源语言中的谣言数据进行训练,并将主张翻译为目标语言进行测试(Du等,2021年);

3) Contrast-Ft:我们采用并扩展了一种现有的少样本学习技术,即监督对比学习(Lin等,2022年),以在零样本情景中进行微调;

4) Adapter:固定PLMs的参数,并在残余适配器中每个任务中添加少量可训练参数(Houlsby等,2019年);

5) Parallel-Adpt:一种基于适配器的变种(He等,2021年),通过将前缀调整的并行插入转移到适配器中;

6) Source-Ppt:一种基于提示的调整方法(Lin等,2021b),在源语言中通过提示对模型进行训练和测试;

7) Translate-Ppt:在源语言中的提示上进行训练,并在翻译后的目标语提示上进行测试(Zhao和Sch¨utze 2021);

8) Soft-Ppt:与离散标记不同,使用可调标记(Lester,Al-Rfou和Constant 2021)作为提示;

9) RPL-*:我们提出的响应感知提示学习框架,其中包含多样化的传播线程,即按时间顺序的时间顺序(Cho)和反向(Inv)顺序,树结构中的深度优先(Dep)和广度优先(Bre)顺序。

将资源充足的TWITTER和WEIBO数据集用作源数据,

将Weibo-COVID19,Twitter-COVID19和CatAr-COVID19数据集用作目标。

使用准确性和宏平均F1,以及类别特定的F1分数作为评估指标。

实验结果

观察到RPL-Inv的性能相对较好,优于RPL-Cho。

推测原因是在传播的后期,质疑性帖子可能更有可能表明声明是谣言还是非谣言。

尽管RPL-Dep取得了令人期待的性能,但未达到预期的最佳性能,因为随着声明的传播,语义和结构信息更多,但同时噪音信息也增加了,尤其是在相对深度的对话或争论中。

总体而言,RPL-Bre在四个基于RPL的变体中通常取得了稳定且出色的性能,通过充分利用广度优先排序和传播位置建模的子树结构属性进行响应融合,验证了社交媒体上的不准确信息可以通过与相同主题的响应性帖子进行比较来进行“自我检查”。

 我们通过在CatAr-COVID19上舍弃我们表现最佳的方法RPL-Bre的一些重要组件来进行消融研究,这些组件包括:

  1. w/o RR: 我们简单地对声明进行编码,而没有考虑社区响应中考虑社会背景的Response Ranking (RR) 策略。

  2. w/o APP: 我们舍弃了在方程中呈现的Absolute Propagation Position。

  3. w/o RPP: 我们舍弃了Relative Propagation Position (RPP)。

  4. w/o ViRA: 我们忽略了Virtual Response Augmentation (ViRA) 机制。

  5. w/o HPE: 我们设计了一个两层的transformer的骨干结构,而不是我们提出的Hierarchical Prompt Encoding (HPE) 机制。其中一个用于独立地对所有响应性帖子进行编码,另一个用于使用来自第一个transformer(即PLMs)的表示来处理帖子序列,第二层transformer的架构与PLMs相似,但只有2层,并且其参数是随机初始化的。

  6. w/o PV: 我们为标签映射设计了一个手动的verbalizer,以替换Prototypical Verbalizer (PV) 用于模型训练。

为了满足每个检查点,按时间顺序逐渐扫描测试数据,直到达到目标时间延迟或帖子数量。

为了进行公平比较,所有基线的输入都使用相同的多语言PLM进行编码。我们观察到我们提出的基于RPL的方法在整个生命周期内都优于其他基线,并且在初始广播后的很早时期就达到了相对较高的宏F1分数。

图4展示了SynEncoder层数(从1到12)对零样本谣言检测性能的影响,以CatAr-COVID19作为目标,分别使用TWITTER(橙色)和WEIBO(蓝色)作为源数据。我们可以观察到,当SynEncoder使用PLMs的前4层进行初始化时,由于主要学到的是表面特征,仍然存在对特定语言的偏见。由于PLMs在较低的6层能够挖掘丰富的语言特征,因此当k设置为6时(即我们模型中的设置),获得了最佳性能。之后,随着k的继续增加,尽管增强了解耦共享语义单元与特定语言特征的能力,但激活具有先验语义知识的SemEncoder层数以进行提示和事件交互的能力减少,因此模型对不同领域谣言数据的泛化能力有限(过度依赖之前的知识),导致性能波动下降。

Conclusion(总结)

提出了一种基于提示的方法,避免依赖于特定语言的谣言提示工程,采用有效的响应融合策略,将有影响力和结构传播线索纳入领域适应。并在三个现实世界的基准测试上的结果证实了我们零样本检测模型的优势。

  • 42
    点赞
  • 49
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值