数据集概述:
这是一个示例数据集。推文被分为训练集和测试集。对于每个集合,分别有两个文件存储谣言和非谣言的推文。该数据集的正负样本数量相当,差不多3700+。真正的数据集就是tweets文件。每个txt文件中的数据格式如下:
- line1: 推文ID|用户名|推文URL|用户URL|发布时间|是否原创|转发数|评论数|点赞数|用户ID|用户认证类型|用户粉丝数|用户关注数|用户推文数|发布平台
- line2: 推文的图片。以下面这种形式组织“图片1 URL|图片2 URL|null”其中URL是图片的链接,null表示图片列表的结尾。
- line3:推文内容(可能为空)
(1). 每条推文有三行,第一行包含由 | 分隔的 15 个元信息,第二行列出了附加到推文的图片的URL,URL 也用 | 分隔,总是存在一个 ‘null’ 占位符,第三行是文本内容(可以为空)。
(2). 用户认证类型有三个不同的值,0 表示无认证,1 表示个人认证,2 表示组织认证。
(3) 图片需要自己写爬虫从网上爬取,大部分图片还是存在的,此外,存在着tweets文本中的图片URL的大小写和实际爬去的图片名称大小写不一致的情况,整理之后的数据集将所有的图片名称改成了小写。
(4) 不同的推文可能有重复的图片,去重之后,所有推文涉及到的图片总数为38829。
(5) nonrumor_images图片文件夹和rumor_images图片文件夹不存在同名文件,所以我们将这两个数据集和爬到的数据集合并。形成一个新的图片文件夹weibo_images
(6) 不同论文的tweets数量存在差异,整理的数据集基于EANN-KDD18,github上有相应的库。
下面是数据集的样例:
3907393559904503|null|null|null|1447078683000|true|30|4|33|null|0|null|null|null|微博 weibo.com
http://ww3.sinaimg.cn/large/62b31d36gw1exv2qu0x0ij20hm0bn0v8.jpg|http://ww1.sinaimg.cn/large/62b31d36gw1exv2qx1wtrj20hm0aumz4.jpg|http://ww3.sinaimg.cn/large/62b31d36gw1exv2qz6zw2j20hm07dwft.jpg|http://ww1.sinaimg.cn/large/62b31d36gw1exv2r1ksnhj20hm07cq3u.jpg|http://ww3.sinaimg.cn/large/62b31d36gw1exv2r80vejj208i0bk0ul.jpg|http://ww4.sinaimg.cn/large/62b31d36gw1exv2rbq7muj20hm0e00tu.jpg|http://ww4.sinaimg.cn/large/62b31d36gw1exv2rf6tnej208i0gv3zb.jpg|http://ww2.sinaimg.cn/large/62b31d36gw1exv2rkjkpmj208i0gvabr.jpg|http://ww4.sinaimg.cn/large/62b31d36gw1exv2roz3upj20hm0m0afv.jpg|null
【每日美图】西西里的希腊古城塞利侬特(Selinunte)
整理好的数据集
**对图片数据集的处理**
本文对数据集进行了整理,主要是将原始的两个图片文件夹和根据url爬去到的图片进行合并,形成了完整的图片数据集weibo_images。此外,将所有的图片名称统一改成了小写。
**对tweets文件信息的抽取**
我们对tweets文件信息进行抽取,提取出了文本信息和图片信息,将空文本的推文进行了删除(约50条),并且核验了每条推文存在的图片,整理成了csv文件。
csv文件由五个字段组成。
- image: 根据原始文件url提取出的所有图片名称。
- text: 推文对应的文本
- useful_image:该推文对应的当前能爬去到的真实存在的图片。
- exist_iamge: 每条推文是否至少存在一张有效图片
- label推文对应的标签
整理好的材料上传至百度网盘:
链接:https://pan.baidu.com/s/1ZOhwfMtw6dUZrfPQvE4MVA?pwd=sads
提取码:sads