论文阅读笔记:A Text Mining Approach for Evaluating Event Credibility on Twitter

A Text Mining Approach for Evaluating Event Credibility on Twitter(一种在Twitter上评估事件可信度的文本挖掘方法)

期刊/会议:2018 IEEE 27th International Conference on Enabling Technologies: Infrastructure for Collaborative Enterprises

 

目录

A Text Mining Approach for Evaluating Event Credibility on Twitter(一种在Twitter上评估事件可信度的文本挖掘方法)

摘要

重要概念梳理

CREDBANK数据集

对原始数据集的处理

进行实验

实验结果

参考文献追溯


摘要

原文的表达:

社交媒体平台上的用户倾向于相信与事件相关的帖子的内容。但是,其中一些事件可能是假的或令人难以置信的。此类事件的传播采取谣言的形式,有可能对个人和社会产生负面影响。为此,在本文中,我们开发了一种文本挖掘方法,用于自动评估社交网络上的事件。我们将Twitter作为案例研究,给定一系列热门的Twitter事件以及人工注释者手动分配的不同可信度等级,我们研究了自动评估此类事件的可信度的问题。本文使用从CREDBANK数据集中提取的事件进行了实验。一系列带有人类可信度判断的推文表明,我们的方法很有前景。通过决策树(DT)分类器,它可以对事件进行82.86%的自动可信度评估。

简而言之,就是作者通过传统机器学习的方法, 如支持向量机、决策树、随机森林、朴素贝叶斯等传统的分类方法,预测推特上事件的可信度,并取得了82.86%的准确率。

 

重要概念梳理

文中有一个很重要的概念就是事件的定义,事件及其相关的一些重要概念的定义如下:

传统意义上的事件(event)是指特定时间发生的一个现实事件,事件与一些按照时间顺序排列的信息相关联,在本文的任务中,这些信息就是用户在推特上发的推文

在文中,事件的定义有所不同。首先,要先明白主题(topic)的概念,主题是从用户的流式推文(可以理解为按照时间顺序排列的推文)中通过运行LDA获得这个推文中的主题,这里的主题由LDA得到的前三个主题词(term)组成,于是每一篇推文都能得到一个短的主题文档(short topic documents),这个主题文档里面包含三个主题词。

说完了主题的概念,接下来是事件的概念,得到了主题文档后,接下来就是判断这个主题是不是事件,这里需要人工的参与,如果有6/10的标注者认为这个主题是事件,那么这个主题才能成为一个事件。文中的数据集就是这一步得到的事件。

得到了事件后,还需要人为的标准来决定这个事件是不是可信的,即给这个事件一个可信度,可信度的定义在接下来会具体说,这样拿到了有可信度的事件后,就可以把事件作为分类器的训练集了,当然还需要进一步的处理,这里也在后面会具体提到。

为了提高分类器的准确率,文中还提出一个TTM矩阵(topic-term matrix),构造这个矩阵需要了解主题文档语料库(topic document corpus)的概念,主题文档语料库的概念文中也没有具体提到,我的理解是对于上面说到的被确定为事件的主题,每个事件中都有三个主题词,把这些主题词全部汇总在一起,就称为主题文档语料库。TTM矩阵统计对于语料库中的每一个词,统计出现这个主题词的事件有多少,把出现的事件的次数作为一个特征放到分类器中,接着进行训练/预测,这就是文章的核心思想。

 

CREDBANK数据集

本文的训练数据就是通过对CREDBANK数据集的处理得到的。

原文的表述:

CREDBANK数据集是通过识别从Twitter的公共样本流中提取的推文中的主题来创建的。这些主题中的每一个都被确定为事件,并且使用人工注释器确定该事件是否包含准确(即可信)的内容。CREDBANK数据集是推文的大规模众包(和外包的概念相对,也就是随机请人标注,外包一般是专业团队)数据集,它有大约6000万条推文,每个事件的可信度是由来自Amazon Mechanical Turk(AMT)的30位人工注释者评估的。

数据集由四个文件组成,包括流式推文文件(streaming tweet file),主题文件(topic file),可信度注释文件(credibility annotation file)和搜索到的推文文件(searched tweet file,其中要用的只有可信度注释文件(credibility annotation file)。

可信度注释文件包含1377个事件及其相应的可信度等级。这些事件中的每一个都在CREDBANK主题文件中被大多数注释者(至少10个中的6个)评为事件。可信度注释文件包含以下4个字段

topic key:这是两项的组合:(1)主题词(topic terms),一个事件中的三个主题词;(2)时间密钥(time key),提取出这个事件的推文发布的时间信息。

topic terms:三个主题词的列表表示,跟topic key中的主题词(topic terms)项目包含的信息相同,只是用了列表的形式表达:[u‘1st term’, u‘2nd term’, u‘3rd term’]

Cred Ratings:因为事件的可信度有30个标注者,所以它是30个评分组成的列表,每个可信度评分在[-2,+2]之间,一共5个等级,数值越大,可信度等级越高,+2表示完全可信,-2表示完全不可信。

Reasons:30个标注者给这个可信度评分的原因组成的列表。

 

对原始数据集的处理

文中只对可信度注释文件进行了预处理,步骤如下:

1. 删除无用的字符(如#,_和-)以及不需要的字段(如time_key)。

2. 删除topic terms字段,它的信息都在topic key字段中被包含了。

3. 删除Reasons字段,实验不需要标注的原因。

 

同时文中对原始语料的可信度进行了处理,分成了3个类别,将可信度预测任务转换为分类任务,三个类别如下:

绝对可信(Absolutely-credible):分数大于1.5

中等可信(Intermediate-credible):分数大于等于1,小于等于1.5

不可信(Incredible ):分数小于1

其中分数是类别中30个分数的平均值。

 

进行了上述处理后,得到的数据集如下所示:

 

左侧为三个主题词,右侧为可信度类别

 

进行实验

分类器:实验中用到的分类器有:Support Vector Machine (SVM), Decision Trees (DT), Random Forest (RF), and Naive Bayes (NB),即支持向量机、决策树、随机森林、朴素贝叶斯。

TTM矩阵的构建:主题词矩阵是使用Weka StringToWord向量过滤器生成的,此过滤器用于将字符串属性(事件文档中的3个主题词构成的字符串)转换为主题文档中出现主题词的频率,也就是上文中提到的出现的次数。换句话说,我们从输入的主题文本中提取了所有的主题词,并通过计算主题文档语料库中每个单词出现的次数(次数就是出现这个词的事件文档的总数)来计算每个单词的频率,接下来,这些频率/计数用作训练生成的分类器的特征。

 

实验结果

评估使用整体准确性(overall accuracy)作为评估生成的监督分类器的分类性能,精确率和召回率的方法

实验分类器的准确性如下:

表I中的结果表明决策树(DT)的准确度优于其他分类器,达到了82.86%的准确度

 

图2显示了每种类别的可信度下,分类器的精度:

SVM分别以0.845和0.833的准确率,在绝对可信度和难以置信的类别中实现了最佳精度,而RF在0.353的中等可信度的类别中获得了最佳精度。


图3显示了每种类别的可信度等级下,分类器的召回率:

DT以0.996的召回率,在绝对可信级别上实现了最佳召回,而SVM在0.134的中间可信级别上实现了最佳召回,最后NB在0.371的难以置信级别上实现了最佳召回。

 

最后作者把结果与相关方法进行了比较,平均而言,作者的方法实现了81.28%的分类精度,而其它方法仅实现了72%的精度。

相关方法的提出文献:M. Gupta, P. Zhao and J. Han Evaluating Event Credibility on Twitter. In Proceedings of the 12th SIAM International Conference on Data Mining, SDM 2012, pp.153-16, 2012.

 

参考文献追溯

社交网络上的信息可信度的预测分析:4,3,5,6,7,8

着重于预测推文本身的可信度,无论这些推文是否用于事件:4,3,7

预测事件的可信度(与本文的工作密切相关):5,6,8

[1] Tanushree Mitra and Eric Gilbert CREDBANK: A Large-Scale Social Media Corpus with Associated Credibility Annotations. In Proceedings of the Ninth International AAAI Conference on Web and Social Media (ICWSM) , PP. 269-278, May 2015.
[2] Kai Shuy, Amy Slivaz, Suhang Wangy, Jiliang Tang, and Huan Liuy Fake News Detection on Social Media: A Data Mining Perspective. ACM SIGKDD Explorations Newsletter , 19(1):22-36,2017.
[3] Vahed Qazvinian, Emily Rosengren, Dragomir R. Radev, and Qiaozhu Mei Rumor has it: Identifying Misinformation in Microblogs In Pro ceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP ’11) , pp. 1589–1599, 2011.
[4] Carlos Castillo, Marcelo Mendoza, and Barbara Poblete Information Credibility on Twitter. In Proceedings of the 20th international conference on World wide web (WWW ’11) , pp.675-684, April, 2011.
[5] M. Gupta, P. Zhao and J. Han Evaluating Event Credibility on Twitter. In Proceedings of the 12th SIAM International Conference on Data Mining, SDM 2012 , pp.153-16, 2012.
[6] A. Gupta, and P. Kumaraguru. Credibility Ranking of Tweets during High Impact Events. In Proceedings of the 1st Workshop on Privacy and Security in Online Social Media (PSOSM ’12) ,article No. 2, April2012.
[7] Y. Ikegami, K. Kawai, Y. Namihira, S. Tsuruta. Topic and Opinion Classifification based Information Credibility Analysis on Twitter. In Proceedings of 2013 IEEE International Conference on Systems, Man, and Cybernetics (SMC) , Oct. 2013.
[8] Aditi Gupta, Ponnurangam Kumaraguru, Carlos Castillo, and Patrick Meier TweetCred: Real-Time Credibility Assessment of Content on Twitter. In Proceedings of the 6th International Conference on Social Informatics (SocInfo 2014) , LNCS 8851, pp. 228243, 2014.
[9] C. Buntain and J. Golbeck I Want to Believe: Journalists and Crowdsourced Accuracy Assessments in Twitter. arXiv:1705.01613v1 [cs.SI] , May 2017.
[10] J. H. Lau, N. Collier, and T. Baldwin On-line Trend Analysis with Topic Models:# twitter trends detection topic model online. In Proceedings of 24th International Conference on Computational Linguistics (COLING2012), pp. 15191534, 2012.
[11] A. Khan, B. Baharudin, L.H Lee, and K. khan. A Review of Machine Learning Algorithms for Text-Documents Classifification. Journal of Advances In Information Technology , Vol. 1, No. 1, February 2010.
[12] Weka 3: Data Mining Software in Java Machine Learning Group at the University of Waikato. Avilable at:https://www.cs.waikato.ac.nz/ml/weka/
[13] Christopher M. Bishop Pattern Recognition and Machine Learning. Springer-Verlag New York , Inc., 2006.
[14] J. Allan Introduction to topic detection and tracking. In Topic detection and tracking , Springer. 116.,2012
[15] J. R. Landis and G. G. Koch. The Measurement of Observer Agreement for Categorical Data. Biometrics , 33(1):159-174, March, 1977.
[16] K. Stapor Evaluating and Comparing Classififiers: Review, Some Recommendations and Limitations In Proceedings of the 10th International Conference on Computer Recognition Systems (CORES 2017) , 2017.
[17] Dane Bertram Likert Scales are the meaning of life.. Avilable at: http: //poincare.matf.bg.ac.rs/ kristina/topic-dane-likert.pdf
"大规模基准数据集用于评估泛锐化性能"是一个用于评估图像泛锐化算法表现的数据集。泛锐化是一种图像处理技术,旨在通过将低分辨率的多光谱图像与高分辨率的全色图像融合,以产生具有较高空间分辨率和丰富光谱信息的图像。这种技术在许多遥感应用中都很有用,例如土地利用监测、资源管理和环境监测。 该数据集的规模大,包含了大量的多光谱和全色图像对,这些图像对均具有全面的注释和质量测量指标。这些图像对来自各种不同的遥感源,涵盖不同的场景和条件。数据集的构建过程经过精心设计,以保证评估结果的准确性和可靠性。 使用该数据集,研究人员和开发者可以对他们的泛锐化算法进行全面的评估和对比。他们可以将自己的算法应用于数据集中的图像对,并使用数据集中提供的注释进行性能评估。这些注释可以包括图像质量评价指标,如结构相似性指数(SSIM)和峰值信噪比(PSNR),或者一些更复杂的图像质量评价方法,如目标检测和目标分类任务的准确率。通过与其他算法进行比较,开发者可以了解他们的算法在不同场景和条件下的表现如何,并进一步改进和优化他们的方法。 "大规模基准数据集用于评估泛锐化性能"的建立为泛锐化算法的发展提供了一个公共的平台,促进了该领域的研究和进步。研究人员和开发者可以根据数据集中的结果和经验得出更好的算法和技术,进一步提高泛锐化算法在实际应用中的效果。这个数据集的存在为遥感图像处理的研究和应用带来了很大的推动力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值