识别微博的误信息(ACM2011)

Rumorhas it: Identifying Misinformation in Microblogs

识别微博的误信息(ACM2011)

文章提出微博谣言监测的问题,探索3类正确识别谣言的特征的有效性:基于内容,基于网络和微博指定模式。

本文的工作不同于前人,前人关注于从一个相关短语的语料中识别谣言。本文尝试进一步辨别短语:确认,反驳,质疑和简单谈论谣言。本文工作的目标是两方面的:(1)提取关于故事和误信息传播的有争议方面的微博(谣言检索);(2)识别相信误信息的用户(可信分类)。为了收集一个完全和自我包含的谣言数据集,使用微博搜索API,检索匹配一个给定正则表达式的所有微博。让两个标注员标注数据集中的所有微博,关于谣言的微博标注为“1”,否则标注为“0”。同时让标注员标注“11”如果微博发布者赞同谣言,“12”如果反驳谣言,质疑它的可信度,或者是中立。

文章中的方法基于建立不同的贝叶斯分类器,学习一个这些分类器的线性函数来检索和分类。每个贝叶斯分类器,对应一个特征fi,计算给定微博t的似然比:P(si+|t)/p(si-|t)=(P(si+)/p(si-))*( P(t|si+)/p(t|si-)),si+和si-是基于特征fi,使用正负训练数据建立的概率模型。似然比表明微博t关于fi在正模型比在负模型更可能的程度。为了避免处理非常小的数字,使用似然比的log来计算:LLi=log(P(si+)/p(si-))+log(P(t|si+)/p(t|si-)),第一项可以使用最大似然估计计算(每个概率的估计是对应的频率)。第二项使用以下不同的特征来计算。

基于内容的特征

用2种模式代表微博:词典模式:所有微博中的单词和片段被表示出来。词性模式:所有的单词用词性标签代替。从每个微博中,提取4个特征(2*2),对应于两种模式的一元模型和二元模型。计算log似然比。

基于网络的特征

关注于微博用户行为,建立特征:转发微博信息“RT @user”。给定一个训练实例集,建立正负用户模型。第一个模型是发表或转发正例子用户的概率分布模型,第二个模型是发表或转发负例子概率分布模型。建立模型后,对于一个给定的微博,计算两个log似然比作为两个基于网络的特征。发表用户和转发用户的区别是重要的,有时候用户用一种改变原文意思和目的的方式更新转发的信息。

微博指定模式

提取微博指定模式:hash标签和URL。

Hash标签:观察与谣言相关的微博使用的hash标签是否不同于其他微博,相信和传播谣言的人使用的hash标签是否不同于否认或质疑者使用的。给定带有正负例子的微博,建立两个统计模型(si+,si-),每个展示各种hash标签的使用概率分布。对于一给定微博t,有m个hash标签的集合(#h1…#hm),计算log似然比。

URLs:如果一个微博是正(负)实例,URL可能与其他正(负)微博相似。给定一个训练微博集,获得这些微博的所有URLs,建立si+和si-的一元模型和二元模型。这些模型只是基于URLs的内容建立,忽略微博内容。计算log似然比。

实验结果表明用内容语言模型计算的特征在获得高准确率和召回率方面非常有效。微博指定的特征,特别是hash标签可以带来高准确率但是低召回率。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值