关于推特社交机器人数据集(来自上一篇论文)

        论文论文阅读 - A Deep Learning Approach for Robust Detection of Bots in Twitter Using Transformers_努力学习中....的博客-CSDN博客社交机器人论文阅读 - A Deep Learning Approach for Robust Detection of Bots in Twitter Using Transformershttps://blog.csdn.net/qq_40671063/article/details/126114489A Deep Learning Approach for Robust Detection of Bots in Twitter Using Transformers论文阅读 - A Deep Learning Approach for Robust Detection of Bots in Twitter Using Transformers_努力学习中....的博客-CSDN博客社交机器人论文阅读 - A Deep Learning Approach for Robust Detection of Bots in Twitter Using Transformershttps://blog.csdn.net/qq_40671063/article/details/126114489

介绍的数据集

        在过去的几年里,通过社交媒体平台(如 Twitter、 Facebook 或 Instagram)传播错误信息的指数增长促进了应用研究,以便发现并防止这类内容在这些网络中的入侵。因此,很明显,人工智能(AI)在这个话题中扮演着至关重要的角色,以支持这些平台,根据一组特定的描述符或特征,从而自动通知或限制对那些看起来可疑的账户的访问。

        举个例子,2019年,推特不得不删除了超过2.6万个账户,因为他们被怀疑传播虚假信息和/或不适当的内容。那么,问题是,人工智能如何支持终端用户检测可疑账户?

        该数据集由超过30K行组成,对应于来自Twitter的不同用户帐户。每行包含两列:Tweet ID和指示其类别(bot或human)的标签。

        以前的调查和数据集都来自这个机器人仓库(Bot Repository),它专注于这个主题。

        该数据集由 37438 行组成,对应于 Twitter 中的不同用户帐户。每行包含帐户的 Twitter ID 和目标变量

        目标变量被表示为account_type,并且具有惟一的值(bot或human)。更具体地说,25013个用户帐户被注释为人类帐户,而其余12425个是机器人帐户。

        数据集可以从Twitter Bots Accounts | Kaggle 网站下载,是更新后的账户(删除已经失效了的账户): 。

        该数据集是由一组小型数据集组成的,这些数据集来自此前对Twitter可疑账户的调查。更具体地说,这些数据集有Twitter用户账户的标识符列表,以及一个标签,表示该账户是机器人还是人类。为了生成这个数据集,使用标识符在整个Twitter API中搜索和检索用户帐户的数据。因此,提出的数据集是一个更紧凑和更完整的版本,以提高分析。此外,那些不再属于Twitter的帐户将从数据集中删除其余用户的数据将根据检索时的数据进行更新(13-07-2020)。

        还可以下载经过Twitter API收集后的账户,下载链接为:bots_accounts_eda | Kaggle, 此数据集由37438行组成,这些行对应于 Twitter 中的不同用户帐户。每行包含20列,这些列是通过 Twitter API 收集的特性。

        目标变量被表示为account_type,并且具有惟一的值(bot或human)。更具体地说,25013个用户帐户被注释为人类帐户,而其余12425个是机器人帐户。

 

 

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Twitter数据集是指收集并整理来自Twitter社交平台上的数据的集合。这些数据可以包括用户发布的文内容、转发和评论的数据、用户的个人信息以及其他与相关的信息。Twitter数据集通常用于进行社会网络分析、情感分析、用户行为分析等研究。 Twitter数据集的获取可以通过API、网络爬虫等方式进行。使用Twitter的API可以实时地获取数据,API还提供了一系列过滤条件和参数,例如按用户、地理位置、话题等进行数据检索。网络爬虫则可以通过模拟用户行为,解析Twitter网页,获取数据。为了维护数据的隐私性,收集数据时需要遵守相关法规和道德规范,例如尊重用户的隐私、保护个人信息等。 在研究过程中,Twitter数据集可以用于分析用户行为。研究人员可以通过分析用户发布的文内容,了解用户的兴趣爱好、关注的话题等。还可以通过分析用户之间的转发和评论关系,探究社交网络的结构和演化规律。情感分析可以通过对文内容进行文本挖掘,分析用户的情感倾向,用于判断公众对某一话题的态度及情感氛围。 此外,Twitter数据集还可以用于舆情监测和风险预警。通过监测文中的关键词、话题和情感表达,可以及时察觉到公众对某一事件或产品的反响,用于预测潜在的风险和对策。 总之,Twitter数据集是一种有价值的社交媒体数据资源,可以为各种研究和分析提供支持。但在使用过程中需要合法和合规,保护用户隐私和信息安全。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值