通过人群响应进行中文谣言检测(IEEE2014)

本文提出了一种通过分析微博转帖和评论的群众响应来检测中文谣言的方法。研究中,利用文本分析和自然语言处理技术提取特征,并采用支持向量机进行文本分类。通过对数据的多层聚类分析,选取有效的特征集,通过实验验证了低相似样本和特定词汇在提升分类性能中的作用。
摘要由CSDN通过智能技术生成

Rumors Detection in Chinese via Crowd Responses 通过群众响应进行中文谣言检测(IEEE2014)

不同于之前的使用微博固有的特征进行检测谣言的研究,本文转移前提,关注于通过从特定社会事件的群众响应:转帖和评论提取特征识别事件谣言。文章中,使用文本分析和自然语言处理技术分析转帖和评论文本来自动划分错误信息和有效信息。通过实验和分析,观察群众在过滤错误信息起的作用。本文贡献:(1)提出了一个收集几乎完全主题数据的方法并给出数据描述。(2)根据转帖和评论的文本聚类微博来获取代表词作为特征集和训练集。(3)形式化谣言检测问题为分类问题,使用支持向量机(SVM)进行文本分类,展示相关实验分析。

数据收集策略

设计和实现数据收集方案,确保数据的完整性和准确性。

  • 时间间隔上的细粒度划分:通过以服务器可接受的最短时间间隔发送请求,获取在这个时间间隔内包含结果微博的网页。
  • 多关键词搜索:社会事件经常有丰富的关键词作为主体,通过发送多个关键词,可以获得几乎完整的数据。
  • 子集划分:通过设置搜索范围,得到3个不同的集合U、V、W,OT代表原帖,RT代表转帖,i、j、k代表页数。U是
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值