完整的虚假新闻检测数据集weibo_datasets

数据集概述:

这是一个示例数据集。推文被分为训练集和测试集。对于每个集合,分别有两个文件存储谣言和非谣言的推文。该数据集的正负样本数量相当,差不多3700+。真正的数据集就是tweets文件。每个txt文件中的数据格式如下:

  • line1: 推文ID|用户名|推文URL|用户URL|发布时间|是否原创|转发数|评论数|点赞数|用户ID|用户认证类型|用户粉丝数|用户关注数|用户推文数|发布平台
  • line2: 推文的图片。以下面这种形式组织“图片1 URL|图片2 URL|null”其中URL是图片的链接,null表示图片列表的结尾。
  • line3:推文内容(可能为空)

(1). 每条推文有三行,第一行包含由 | 分隔的 15 个元信息,第二行列出了附加到推文的图片的URL,URL 也用 | 分隔,总是存在一个 ‘null’ 占位符,第三行是文本内容(可以为空)。
(2). 用户认证类型有三个不同的值,0 表示无认证,1 表示个人认证,2 表示组织认证。

(3) 图片需要自己写爬虫从网上爬取,大部分图片还是存在的,此外,存在着tweets文本中的图片URL的大小写和实际爬去的图片名称大小写不一致的情况,整理之后的数据集将所有的图片名称改成了小写。

(4) 不同的推文可能有重复的图片,去重之后,所有推文涉及到的图片总数为38829。

(5) nonrumor_images图片文件夹和rumor_images图片文件夹不存在同名文件,所以我们将这两个数据集和爬到的数据集合并。形成一个新的图片文件夹weibo_images

(6) 不同论文的tweets数量存在差异,整理的数据集基于EANN-KDD18,github上有相应的库。

下面是数据集的样例:

3907393559904503|null|null|null|1447078683000|true|30|4|33|null|0|null|null|null|微博 weibo.com
http://ww3.sinaimg.cn/large/62b31d36gw1exv2qu0x0ij20hm0bn0v8.jpg|http://ww1.sinaimg.cn/large/62b31d36gw1exv2qx1wtrj20hm0aumz4.jpg|http://ww3.sinaimg.cn/large/62b31d36gw1exv2qz6zw2j20hm07dwft.jpg|http://ww1.sinaimg.cn/large/62b31d36gw1exv2r1ksnhj20hm07cq3u.jpg|http://ww3.sinaimg.cn/large/62b31d36gw1exv2r80vejj208i0bk0ul.jpg|http://ww4.sinaimg.cn/large/62b31d36gw1exv2rbq7muj20hm0e00tu.jpg|http://ww4.sinaimg.cn/large/62b31d36gw1exv2rf6tnej208i0gv3zb.jpg|http://ww2.sinaimg.cn/large/62b31d36gw1exv2rkjkpmj208i0gvabr.jpg|http://ww4.sinaimg.cn/large/62b31d36gw1exv2roz3upj20hm0m0afv.jpg|null
【每日美图】西西里的希腊古城塞利侬特(Selinunte)

整理好的数据集

**对图片数据集的处理**

本文对数据集进行了整理,主要是将原始的两个图片文件夹和根据url爬去到的图片进行合并,形成了完整的图片数据集weibo_images。此外,将所有的图片名称统一改成了小写。

**对tweets文件信息的抽取**

我们对tweets文件信息进行抽取,提取出了文本信息和图片信息,将空文本的推文进行了删除(约50条),并且核验了每条推文存在的图片,整理成了csv文件。

csv文件由五个字段组成。

  • image: 根据原始文件url提取出的所有图片名称。
  • text: 推文对应的文本
  • useful_image:该推文对应的当前能爬去到的真实存在的图片。
  • exist_iamge: 每条推文是否至少存在一张有效图片
  • label推文对应的标签

整理好的材料上传至百度网盘:
链接:https://pan.baidu.com/s/1ZOhwfMtw6dUZrfPQvE4MVA?pwd=sads
提取码:sads

  • 11
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 9
    评论
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

huangecho

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值