本文专注于评估给定tweet集可信度的自动方法,主要目标是确定是否可以自动评估Twitter上发布的内容的可信度水平。我们的主要假设是,在社交媒体环境本身存在可用的信号,使用户能够评估信息的可信性。在这种情况下,们将社交媒体可信度定义为信息可信度的方面,可以仅使用社交媒体平台中可用的信息进行评估
本文方法是基于监督学习的,
- 建立一个数据集来研究Twitter的可信度。首先,通过研究活动的突发性,提取一组相关的讨论主题;
- 然后,一组人工评估人员根据每个主题是否对应于有新闻价值的信息/事件或非正式对话对其进行标记。数据集创建后,前一类中的每个项目都由另一组评委评估其可信度水平。
- 再从每个带标签的主题中提取相关特征,并使用它们构建一个分类器,该分类器试图自动确定一个主题是否对应于有新闻价值的信息/事件,然后自动评估其可信度水平。
数据收集
自动事件检测
本文使用Twitter Monitor[18]7在2个月内检测到的Twitter事件。Twitter Monitor是一个在线监控系统,可以检测到在消息中发现的关键字组频率的急剧增加(“爆发”)。