Rumors Detection in Chinese via Crowd Responses 通过群众响应进行中文谣言检测(IEEE2014)
不同于之前的使用微博固有的特征进行检测谣言的研究,本文转移前提,关注于通过从特定社会事件的群众响应:转帖和评论提取特征识别事件谣言。文章中,使用文本分析和自然语言处理技术分析转帖和评论文本来自动划分错误信息和有效信息。通过实验和分析,观察群众在过滤错误信息起的作用。本文贡献:(1)提出了一个收集几乎完全主题数据的方法并给出数据描述。(2)根据转帖和评论的文本聚类微博来获取代表词作为特征集和训练集。(3)形式化谣言检测问题为分类问题,使用支持向量机(SVM)进行文本分类,展示相关实验分析。
数据收集策略
设计和实现数据收集方案,确保数据的完整性和准确性。
- 时间间隔上的细粒度划分:通过以服务器可接受的最短时间间隔发送请求,获取在这个时间间隔内包含结果微博的网页。
- 多关键词搜索:社会事件经常有丰富的关键词作为主体,通过发送多个关键词,可以获得几乎完整的数据。
- 子集划分:通过设置搜索范围,得到3个不同的集合U、V、W,OT代表原帖,RT代表转帖,i、j、k代表页数。U是