caverlee
下载地址:https://infolab.tamu.edu/data/
源自论文:Lee, Kyumin, Brian David Eoff, and James Caverlee. "Seven Months with the Devils: A Long-Term Study of Content Polluters on Twitter." ICWSM. 2011.
论文链接:http://faculty.cse.tamu.edu/caverlee/pubs/lee11icwsm.pdf
摘要:与Twitter和Facebook等社交网站的流行同步,这些网络上不受欢迎的、破坏性的实体--包括垃圾邮件发送者、恶意软件传播者和其他内容污染者--也在崛起。受致力于确保公地成功的社会学家和专注于阻止破坏行为和预泄犯罪的犯罪学家的启发,我们提出了第一个关于社会蜜罐的长期研究,用于诱惑、剖析和过滤社交媒体中的内容污染者。具体来说,我们报告了我们在Twitter上部署60个蜜罐的七个月的经验,结果收获了36000个候选内容污染者。作为研究的一部分,我们(i)检查了被骚扰的Twitter用户,包括分析链接的有效载荷、用户在一段时间内的行为以及关注者/关注网络的动态;(ii)评估了一系列的特征,以调查自动识别内容污染者的有效性。
描述:这个社会蜜罐数据集从2009年12月30日至2010年8月2日在Twitter上收集。该数据集包含22223个内容污染者,他们在一段时间内的关注人数,2,353,473条推文,以及19276个合法用户,他们在一段时间内的关注人数,3,259,693条推文。
数据集 caverlee包含语义和属性信息;