干货!社交媒体假新闻传播的因果理解

生点击蓝字

08dc5a0cbade9ce30f224a226622d237.png

关注我们

AI TIME欢迎每一位AI爱好者的加入!

近年来,计算假新闻检测取得了显著进展。为了减轻其负面影响,了解哪些用户属性可能导致用户分享假新闻至关重要。在《Causal Understanding of Fake News Dissemination on Social Media》这篇论文中,作者从因果推断的角度看待这个任务。这个因果推断问题的关键是识别混杂因子——导致treatment(如用户属性)和outcome(如用户易感性)之间伪相关的变量。在假新闻传播中,混杂因子可以被描述为与用户属性和在线活动内在相关的虚假新闻分享行为。然而,用户往往是带有偏见的,例如,我们通常阅读自己感兴趣的新闻,推荐系统也会推荐它认为我们感兴趣的内容。这就导致通过观察数据学习的用户行为通常会受到选择偏差的影响。基于因果推断理论,作者首先提出了一种基于倾向性评分的方法来缓解虚假新闻传播中的选择偏差。然后,将学习到的无偏虚假新闻分享行为视为可以充分捕捉用户属性和用户易感性之间的因果关系的替代混淆银子。作者从理论上和实证上描述了该方法的有效性,并发现它可能有助于保护社会免受假新闻的危害。

本期AI TIME PhD直播间,我们有幸邀请到亚利桑那州立大学博士生——程璐为我们带来报告分享《社交媒体假新闻传播的因果理解》。

5c63320ce7aac68493856562f3d6fb6e.png

程璐:

亚利桑那州立大学五年级博士生,导师为刘欢教授。主要研究方向为负责任人工智能,社会媒体挖掘,因果学习等。目前已在KDD,WSDM,AAAI,IJCAI,JAIR等顶级数据挖掘和人工智能会议与期刊发表多篇论文。

相关知识:二分图

二分图,又称二部图,英文名叫 Bipartite graph。

节点由两个集合组成,且两个集合内部没有边的图。

换言之,存在一种方案,将节点划分成满足以上性质的两个集合。

82e80b43e401eca7c0dc91f104d15408.png

逆概率加权

逆概率加权(IPW)是一种用于解释由于非随机选择观测值或人群信息的非随机缺失而造成的缺失和选择偏差的方法。这种方法可以通过对观察值的加权来修正分析,使其具有被选中的概率。IPW是基于这样一个假设,即整个研究人群都有可以预测纳入概率(非遗漏)的个体信息,因此,在考虑到这些信息后,我们可以仅从非遗漏的观察值开始对整个目标人群进行推断。

01

 背 景 

在2016年的美国总统大选的过程中,在社交媒体上充斥着各种被有意散播的虚假新闻,被用于不正当的谋利,甚至被认为目的可能是影响总统大选的投票结果。可以看出,虚假新闻--为了误导消费者而产生的与真实报道接近的虚假的、误导性信息,具有传播速度极快的特点,往往也会造成很大的损失。所以将虚假新闻检测出来是一个非常重要的任务。

02

相关工作 

(1)虚假新闻检测

现有工作通常分为两类:基于内容的方法和基于传播的方法。在基于内容的方法中,新闻内容通常由知识、风格或潜在表征来表示。知识导向方法通过将新闻知识与知识图谱中的知识进行比较来直接评估新闻的真实性。假新闻检测自然是一项链接预测任务。限于知识图的完备性,通常需要进一步的知识边推理的后处理方法。基于样式的方法“很少得到跨学科的基本理论的支持”。基于潜在表示的方法具有有限的可解释性。

基于传播的方法提倡使用社交上下文信息。例如,通过引入用户角色(即,意见领袖或普通用户)、立场(例如,赞成或怀疑)和用户帖子中表达的情绪,扩展成新闻结构。潜在的假设是,假新闻的整体结构与真实的有所不同。

尽管识别假新闻有显著进展,但试图了解用户个人资料的什么属性导致用户传播假新闻仍需关注。

(2)倾向性评分

倾向性评分作为因果推理中最重要的技术之一,已广泛应用于医学、经济学、计算机科学等各个领域的观测研究。倾向性评分方法的目标是通过使用倾向性评分(本质上是平衡评分)对不同治疗组的样本重新加权,从而创建一个伪随机试验。

以公共卫生学为例,假设研究问题是吸烟对于大众健康的影响,研究人员常常得到的数据是观察研究数据,而不是随机对照实验数据(Randomized Controlled Trial data),因为吸烟者的行为和结果,以及不吸烟者的行为和结果,是很容易观察到的。但如果要进行随机对照实验,招收大量被试者,然后随机分配到吸烟组和不吸烟组,这种实验设计不太容易实现,也并不符合科研伦理。这种情况下观察研究是最合适的研究方法。但是面对最容易获得的观察研究数据,如果不加调整,很容易获得错误的结论,比如拿吸烟组健康状况最好的一些人和不吸烟组健康状况最不好的一些人作对比,得出吸烟对于健康并无负面影响的结论。从统计学角度分析原因,这是因为观察研究并未采用随机分组的方法,无法基于大数定理的作用,在实验组和对照组之间削弱混杂变量的影响,很容易产生系统性的偏差。

03

 因果和虚假信息传播的关系 

与之前大部分工作侧重于研究用户信息(年龄、性别等)和虚假新闻之间相关性相反的是,作者揭示了用户属性和用户分享虚假新闻的易感性之间的因果关系,对于如何学习到无选择偏差的新闻分享行为可以通过倾向分数技术来实现,最后识别出用户属性对于传播虚假新闻行为的影响。

04

建模社交媒体中的虚假信息传播 

将社交媒体中的虚假信息传播通过二分图建模,左边为用户,右边为虚假新闻,如果用户u传播了虚假新闻i,则这两个节点之间建立一条边。

e2b178adcc0fda415371e9d49a7c2922.png

05

学习无偏分享行为

先前介绍的假新闻传播模型直接使用从观测研究中收集的用户-新闻交互。这至少导致了两个主要缺陷:

第一,观察性数据只包括用户与假新闻之间的正面互动,而从来没有观察到负面互动。因此,上述假新闻传播模型不能区分未分享的假新闻是用户不感兴趣还是假新闻还没有暴露给用户;

第二,类似于社会网络科学中的偏好依恋理论,用户优先与已经流行的新闻互动,在线新闻平台也更有可能推荐热门新闻,而不是冷门新闻。使用这些部分观察到的交互的假新闻传播模型将学习假新闻共享行为(或用户嵌入)的有偏嵌入。

为了减少选择偏差,作者利用IPS(Inverse Propensity Scoring)来学习基于用户与假新闻之间已有交互的无偏见的假新闻分享行为。假设用户暴露于假新闻是概率性事件,即,对于所有用户-假新闻对,观察到非零条目Yui的边缘分布为θui=P(Oui=1)。形式上将虚假新闻传播中的倾向性分数定义如下:

beb16c732de9a285a8787eac937e720c.png

图5直方图中展示了有无self regularization下所得到的精度,结果表明这一项能够有效的减弱潜在噪声对最近邻特征的影响。

a35a75581769a7d743613759834c080a.png

然后通过IPS得到无偏损失函数:

865aace16e6d74172dc777d952ff7326.png

假新闻倾向得分:

由于暴露变量是无法直接观测的,作者利用可观测数据提出了基于用户和新闻属性的三种倾向性得分估计。

第一种使用相对新闻受欢迎度来估计倾向分数:

9182eabbd6ebea74194699afa8f196cf.png

第二种使用相对新闻受欢迎度和用户受欢迎度来为估计倾向分数

4f0024bdd6728a1b4c4390223cc67820.png

第三种由新闻内容估计倾向分数:

c15c529caa40301bd9ffd974f763b24a.png

方差减小:基于IPS的方法经常遭受有的方差,因为倾向得分可能非常小。例如,不受欢迎的假新闻曝光概率很低。为了减小方差,采用以下非负损失:

1c35d43b24df7f0224cdc615d75ad5bc.png

06

 定义因果用户属性 

对于每个用户,将其可疑性可疑性定义如下:

即可疑性可疑性越高,越容易分享假新闻。

为了定义各用户属性对可疑性的影响,两个重要的问题需要解决:同时影响用户属性和用户可疑性的混杂因子有哪些和以下三个假设在什么情况下都可以满足:

(1)个体处理稳定性假设(SUTVA):任意一个个体的潜在结果不随其他个体是否接受处理而改变,而且每个个体受到的处理和潜在结果之间是定义良好的函数。

(2)正性或充分重叠假设:

30b5e470781702965a5680db37604a59.png

(3)Z足够丰富,可以捕捉所有同时影响A和B的变量:

dac272a1eedd1489b9f5fb4ab20a17da.png

对于问题一,根据社会学和心理学理论,可以建立出如下的因果图:

68c88c20070157c3a1bd45ce770f241a.png

问题二的三个假设也可成立,在此基础上们可以建立因果模型:

2cf47339ac1db7130fb06789c18dd89c.png

07

 实   验 

数据集:

PolitiFact

GossipCop

41edef90d6a9238aa54c4559e38259ba.png

结果:

对于虚假新闻分享的测评:

在各数据集上与baseline的比较:

da83403f076391fce58c23cee65cab70.png

93c95d3e6d21df44acc570488a36df52.png

d39e09eb460e220cc4b34a0e09eb4236.png

c7129b3b9264fe16f5cc405e02a31592.png

对于假新闻和真新闻传播的比较和用户属性的因果分析:

ce63fd771a8cb029c06b3c937c262d9a.png

cc15510c6547eeea3bcc06633b1c0bdb.png

5abbccca1ee5ed951d5d4b3f800f2e77.png

08

 背   景 

这项工作旨在了解为什么人们传播假新闻,这是一个尚未得到适当研究的话题。在这里,作者提供了初步的解决方案,但仍有许多工作要做,以揭示潜在的因果机制。

论文链接:

https://openreview.net/forum?id=ueGDv64HmO

点击“阅读原文”,即可观看本场回放

整理:史屹琛

审核:程璐

直播预告

3月23日 19:30  CVPR2022论文预讲

对比学习在域泛化中的应用

香港中文大学-计算机与工程学院博士生——姚旭峰

高效神经辐射场

香港中文大学计算机系博士生——胡涛

往期精彩文章推荐

fced977b6591cfea01433e79625a4cb7.png

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了550多位海内外讲者,举办了逾300场活动,超120万人次观看。

28fb5b1c94d533eaa4ed7314e0134d81.png

我知道你

在看

~

6c8b01733c4fbf03248195e78c420ddd.gif

点击 阅读原文 查看回放!

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值