Zoom Out and Observe: News Environment Perception for Fake News Detection
摘要
现有方法进行谣言检测利用新闻帖子的语言模式,聚焦(zoom in)用知识源和读者回复来核实其内容。这些方法忽视了这个新闻被创造并且传播的外部新闻环境。新闻环境代表最近主流的媒体观点和大众关注,这是假新闻制造的重要灵感。为了捕捉新闻帖子的外部信号,我们“拉远镜头”(zoom out)来观察新闻环境,提出了 News Environment Perception Framework (NEP)。
对每一个帖子我们从最近的主流新闻中构建它的宏观和微观的新闻环境。然后我们设计了一个流行导向和新奇导向的模块来感知有用的信号,并进一步帮助最终的预测。在新构建的数据集上的实验表明,该方法能够有效地提高基本假新闻检测器的性能。
1 Introduction
↑ 现有方法和我们的方法对比
除了直接观察帖子的内容模式,现有方法常常聚焦于通过用户回复寻找更丰富的帖子级的信息和用知识源核查事实。虚假新闻要获益,需要大量的曝光和传播,制造者需要想办法提高帖子的曝光和在上下文(即环境)吸引观众。
假新闻帖子p,它的新闻环境包含最近三天的新闻条目(2019/11/12 to 2019/11/14),可见p落于热点事件叙利亚-中国世界杯预选赛,与其他事件相比注重于新奇方面(叙利亚不寻常的庆祝)。
宏观新闻环境(macro news
environment): 对整个最近新闻条目的集合
微观新闻环境(micro news
environment): 与事件相关的子集
对p叙利亚为在球赛胜过中国停战的假新闻,在新闻环境中可观察到2个信号。
1、热度 宏观环境看,p在五个不同领域的事件中与相对流行的叙利亚-中国世界杯比赛相关。会带来更大的热度
2、新颖 微观看,大部分帖子只关注比赛本身,p提供了一个新的角度关于叙利亚不寻常的庆祝,来抓住观众的注意,增加传播。
这些潜在的有用信号,在zoom in 模式中被无视。
为此本文提出了 News Environment Perception Framework (NEP),
对帖子p,建立2个新闻环境,MACROENV和MICROENV,利用最近的主流新闻来从不同观点促进感知。建立了热度导向和新颖导向的模块来描述p和这些新闻条目的关系。
环境感知向量被融合进现有的假新闻解码器中进行预测。
2 Related Work
Post-only methods
“Zoom-in” methods
NEP不同于基于知识的方法将新闻环境作为基础证据,而是读取新闻的“氛围”,它不需要挑选有证据的新闻“zoom-in”和“zoom-out”方法可以结合使用。
3 Proposed Method
NEP框架概述
给定帖子p
首先用最近的新闻数据建立宏观微观新闻环境 (MACROENV and MICROENV)
用帖子环境关系生成环境感知向量 v p , m a c v^{p,mac} vp,mac和 v p , m i c v^{p,mic} vp,mic
将两个环境感知向量融合进帖子的表达 o o o, o o o来自虚假新闻解码器
预测p的真假
3.1 News Environment Construction
新闻环境要反应最近的主流焦点和大众热点
为此我们收集主流媒体的新闻条目作为环境元素
ε \varepsilon ε是在 p p p之前发布的新闻条目集合
MACROENV:
ε
m
a
c
=
{
e
:
e
∈
ε
,
0
<
t
p
−
t
e
≤
T
}
\varepsilon^{mac}= \{ e: e \in \varepsilon, 0 < t_p - t_e \le T \}
εmac={e:e∈ε,0<tp−te≤T}
t p t_p tp是p的发表日期, t e t_e te是新闻条目e的发表日期
MICROENV:
是MACROENV中与p相关的子集
ε m i c = { e : e ∈ T o p k ( p , ε m a c ) } \varepsilon^{mic}= \{ e: e \in Topk(p,\varepsilon^{mac})\} εmic={e:e∈Topk(p,εmac)}
k = ⌈ r ∣ ε m a x ∣ ⌉ k= \lceil r|\varepsilon^{max}| \rceil k=⌈r∣εmax∣⌉, r ∈ ( 0 , 1 ) r \in (0,1) r∈(0,1), 决定比例
用预训练模型 M \mathcal{M} M(BERT等)获得post/news的表示
p,e的初始表示即为[CLS]token的输出
p = M ( p ) p=\mathcal{M}(p) p=M(p), e = M ( e ) e=\mathcal{M}(e) e=M(e)
3.2 News Environment Perception
Popularity-Oriented MACROENV Perception.
p的主事件在MACROENV中的热度
用p和其他新闻条目的相似性估计代表对p的事件热度的感知
(比如
ε
m
a
x
\varepsilon^{max}
εmax中的i条新闻条目)
s
(
p
,
e
i
)
=
p
⋅
e
i
∥
p
∥
∥
e
i
∥
s(p,e_i)=\frac{p\cdot e_i}{\lVert p \rVert\lVert e_i \rVert}
s(p,ei)=∥p∥∥ei∥p⋅ei
相似度
{
cos
(
p
,
e
i
)
}
i
=
1
∣
ε
m
a
x
∣
\{ \cos(p,e_i) \}_{i=1}^{\rvert \varepsilon^{max}\lvert}
{cos(p,ei)}i=1∣εmax∣表用list在使用固定维度作为输入的网络中表现不佳
对其应用高斯核池化软计算一个分布模拟
用 C C C核 { K i } i = 1 C \{ \mathbf{K_i}\}_{i=1}^{C} {Ki}i=1C
第k核的输出为:
K
k
i
=
e
x
p
(
−
(
s
(
p
,
e
i
)
−
μ
k
)
2
)
2
σ
k
2
)
\mathbf{K}_k^i=exp\big( - \frac{(s(p,e_i)-\mu_k)^2)}{2\sigma_k^2}\big)
Kki=exp(−2σk2(s(p,ei)−μk)2))
K k ( p , ε m a c ) = ∑ i = 1 ∣ ε m a c ∣ K k i \mathbf{K}_k(p,\varepsilon^{mac})=\sum_{i=1}^{\lvert \varepsilon^{mac}\rvert}\mathbf{K}_k^i Kk(p,εmac)=i=1∑∣εmac∣Kki
μ
k
\mu_k
μk是高斯核函数的中心,
σ
k
\sigma_k
σk是其宽度
p和e相似度接近中心 μ k \mu_k μk,那么指数项接近1,反之接近0
后对e指数求和
C个核的中心 { μ k } k = 1 C \{ \mu_k\}_{k=1}^{C} {μk}k=1C散布在 [ − 1 , 1 ] [-1,1] [−1,1]来完全覆盖余弦相似度的范围,宽度 { σ k } k = 1 C \{ \sigma_k\}_{k=1}^{C} {σk}k=1C
在MACROENV中一个C维的相似性特征向量,由拼接所有核的输出,并标准化得到:
K
(
p
,
ε
m
a
x
)
=
N
o
r
m
(
⨁
k
=
1
C
K
k
(
p
,
ε
m
a
c
)
)
\mathbf{K}(p,\varepsilon^{max})=Norm\bigg(\bigoplus_{k=1}^{C}\mathbf{K}_k(p,\varepsilon^{mac}) \bigg)
K(p,εmax)=Norm(k=1⨁CKk(p,εmac))
K
k
(
p
,
ε
m
a
c
)
\mathbf{K}_k(p,\varepsilon^{mac})
Kk(p,εmac) 即p和MACROENV的相似度的软分布,为了丰富感知信息,将其和语义信息进行融合。
v
p
,
m
a
c
=
M
L
P
(
p
⊕
m
(
ε
m
a
c
)
⊕
K
k
(
p
,
ε
m
a
c
)
)
\bf{v}^{p,mac}=MLP(p\oplus m(\varepsilon^{mac})\oplus \mathbf{K}_k(p,\varepsilon^{mac}))
vp,mac=MLP(p⊕m(εmac)⊕Kk(p,εmac))
m
(
ε
m
a
c
)
m(\varepsilon^{mac})
m(εmac)是MACRO的中心向量,对所有向量求均值。
Novelty-Oriented MICROENV Perception.
新颖度导向的微观环境感知
在相似事件的微观环境中来考虑p有多新颖。如果p新颖,那么在相似事件中,它就是一个特异点。
MICROENV中心向量
m
(
ε
m
i
c
)
m(\varepsilon^{mic})
m(εmic)
这一部分需要计算两个相似特征,
K
(
p
,
ε
m
i
c
)
\mathbf{K}(p,\varepsilon^{mic})
K(p,εmic)和
K
(
m
(
ε
m
i
c
)
,
ε
m
i
c
)
\mathbf{K}(m(\varepsilon^{mic}),\varepsilon^{mic})
K(m(εmic),εmic),后者可以作为前者的参考,便于模型对其感知进行“校准”。
p的MICROENV感知向量构造如下
u
s
e
m
=
M
L
P
(
p
⊕
m
(
ε
m
i
c
)
)
u^{sem}=MLP(p\oplus m(\varepsilon^{mic}))
usem=MLP(p⊕m(εmic))
u
s
i
m
=
M
L
P
(
g
(
K
(
p
,
ε
m
i
c
)
,
K
(
m
(
ε
m
i
c
)
,
ε
m
i
c
)
)
)
u^{sim}=MLP(\bf{g}(\mathbf{K}(p,\varepsilon^{mic}),\mathbf{K}(m(\varepsilon^{mic}),\varepsilon^{mic})))
usim=MLP(g(K(p,εmic),K(m(εmic),εmic)))
v
p
,
m
i
c
=
M
L
P
(
u
s
e
m
⊕
u
s
i
m
)
\bf v^{p,mic}=MLP(u^{sem}\oplus u^{sim})
vp,mic=MLP(usem⊕usim)
其中 g ( x , y ) = ( x ⊙ y ) ⊕ ( x − y ) \bf g(x,y)=(x\odot y)\oplus(x-y) g(x,y)=(x⊙y)⊕(x−y), ⊙ \odot ⊙为哈达玛积, u s i m u^{sim} usim, u s e m u^{sem} usem分别聚合了语义和相似度信息。MLPs都是独立参数。
3.3 Prediction under Perceived Environments
为了将NEP与其他虚假新闻检测更好的融合
应用了门机制自适应融合
v
p
,
m
a
c
v^{p,mac}
vp,mac,
v
p
,
m
i
c
v^{p,mic}
vp,mic
v
p
=
g
⊙
v
p
,
m
a
c
+
(
1
−
g
)
⊙
v
p
,
m
i
c
\bf v^p =g \odot v^{p,mac}+(1-g)\odot v^{p,mic}
vp=g⊙vp,mac+(1−g)⊙vp,mic
门向量
g
=
s
i
g
m
o
i
d
(
L
i
n
e
a
r
(
o
⊕
v
p
,
m
a
c
)
)
\bf g=sigmoid(Linear(o \oplus v^{p,mac}))
g=sigmoid(Linear(o⊕vp,mac))
o o o是post-only的检测器的最后一层特征
最后
o
o
o和
v
p
\bf v^p
vp进入MLP之后,在经过softmax层来预测结果。
y
^
=
s
o
f
t
m
a
x
(
M
L
P
(
o
⊕
v
p
)
)
\hat{\bf{y}}=softmax(MLP(o \oplus \bf v^p))
y^=softmax(MLP(o⊕vp))
这个公式也可以连接别的特征
损失函数利用交叉熵损失
4 Experiment
三个评价问题:
EQ1:NEP是否能够提升假新闻检测的性能?
EQ2:NEP建模宏观和微观环境是否有效?
EQ3:在哪种情景下新闻环境有利于虚假新闻检测?
4.1 Dataset
Chinese Dataset
post: 我们合并了多个微博数据集的不重复部分 (Ma et al., 2016)(excluding those unverified), (Song et al., 2019),(Zhang et al., 2021) and (Sheng et al., 2021a) 以实现更好的多年新闻,并避免与特定新闻环境(例如,一个充满COVID-19新闻)的虚假关联。
为了平衡这些年来真实/虚假类的帖子数量,我们添加了由新闻验证系统 N e w s V e r i f y 5 \bf NewsVerify^5 NewsVerify5验证的新闻帖子,并对合并后的集合重采样。最终的集合包含2010年到2021年微博的39,066个已验证的帖子。
News Environment: 收集了六个有代表性粉丝超过3000万的主流新闻媒体的新闻条目。处理后2010年到2021年共有583208条。
English’ Dataset
post: 我们合并了(Kochkina et al., 2018) (excluding unverified), (Augenstein et al., 2019) (excluding those without claim dates), and (Shaar et al., 2020)。 我们将中性贴子去掉并重新采样后,从2014年到2018年共获得6483个贴子
News Environment:
由于Twitter的限制,我们使用来自赫芬顿邮报、NPR和每日邮报( Huffington Post, NPR, and Daily Mail)的新闻标题(有的话,加简短的描述)作为新闻推文的替代。根据 AllSides Media Bias Chart偏差率,这三家媒体分别为左、中、右。我们保存了2014 - 2018年的新闻标题,获取了1003646条新闻。
4.2 Experimental Setup
Base Models
Post-Only:
- B i − L S T M Bi-LSTM Bi−LSTM
- E A N N T EANN_T EANNT利用对抗训练移除特定于事件的特征,假新闻检测器和事件鉴别器共同训练
- B E R T BERT BERT
- B E R T − E m o BERT-Emo BERT−Emo
“Zoom-in”:
1) D e C l a r E DeClarE DeClarE(Popat et al., 2018)帖子和相关文件视为线索
2) M A C MAC MAC (Vo and Lee,2021)关于证据感知的层次多头注意力网络
Implementation Details
基于BERT模型,利用SimCSE获取句子表示.
环境建模, T = 3, r = 0.1, C = 22. 限制
∣
ε
m
a
c
∣
≥
10
|\varepsilon^{mac}| ≥ 10
∣εmac∣≥10
4.3 Performance Comparison (EQ1)
NEP在六个基础模型上均有提升
在虚假新闻上的提升比真实多,因为更关注虚假新闻,也证明环境对捕获虚假新闻特点有效。
“zoom-in”的方法比“post-only”有效,但提升较小,可能是因为有效的证据难以获得,但NEP依旧获得了提升,因为NEP提供了补充的角色
4.4 Evaluation on Variants of NEP (EQ2)
两组消融实验,用一种或者两种环境感知向量,当不与fake news detectors的输出o联合时是否能够起效。
w/o Environment Perception Modules: 去除其中一个环境感知模块,可见MACROENV和MICROENV都是必须的并且起到了补充的作用。
(基模型 best-performing models BERT-Emo+NEP and DeClarE+NEP)
Effects of the proportion factor r for the MICROENV (BASE:BERT-Emo+NEP)
微观环境MICROENV的比例r的影响,在T=3下,以step=0.05,尝试0.05到0.30区间的r。
r提升会使MICROENV集变大,但对准确率影响有限,在r=0.1后几乎没有影响,过于小的r可能不能覆盖足够的相似条目,而太大也许会涵盖过多无关条目。
Effects of the day difference T for the MACROENV.(BERT-Emo+NEP)
天数T对宏观环境MACROENV的作用,令T=1,3,5,7,9。
可见准确率和表(a)类似,可解释为T=3是一个比较合适长度的时间,让事件发展,并不至于被遗忘。
4.5 Environment Analysis (EQ3)
Categorization of macro- and micro-preferred samples.
宏观和微观偏好样本分类
根据门向量取更加依赖于环境前1%的中文虚假新闻样本,手工分类这些样本探索MACRO/MICRO环境提供了什么信息。
MACRO环境对自然灾害和意外事故更有效(地震,空难等)
MICRO环境对社会生活更有效(抢劫,教育)
这与我们的直觉一致:
MACROENV偏好的假新闻往往与耸人听闻的事件有关,因此MACROENV重点在于热度;
MICROENV往往与日常新闻中的常见事件有关,因而在MICROENV新颖性更重要。
Case study 案例:
5 Discussion in Practical Systems
现实情况,真实新闻和虚假新闻比例高度倾斜与真实,约100:1,所有模型都有很高的准确率。 macro F1 and 标准化部分AUC(standardized partial AUC),在不同比例的真假新闻比例中,NEP提高了16.89%macro F1,5.20
s
p
A
U
C
F
P
R
≤
0.1
spAUC_{FPR\le 0.1}
spAUCFPR≤0.1
证明方法在扭曲的真实场景有效
NEP方法具有及时性,只需要几天的帖子和新闻条目,同时具有兼容性能与其他方法一起使用,并且数据易得。
6 Conclusion and Future Work
1)包含历史新闻或者背景来处理与目前环境联系弱的帖子
2)使用不同的相似性度量甚至从其他角度建模后环境关系
3)调查不同新闻环境的影响
4)扩展TEXT-ONLY检测器到多模态以及基于社会关系图检测。