用八爪鱼获取微博社区管理中心的举报文本
由于想做一些关于虚假新闻检测的工作,希望获得一些时间较新、具有文本内容、时间、评论、图片等多元化数据。
但已开源的数据集,包括politifact、gossipcop(获取链接:https://github.com/KaiDMML/FakeNewsNet)常由于url已无法访问或Twitter权限等问题,无法采集到足够的数据。
已公开的微博谣言数据集(获取链接:https://github.com/thunlp/Chinese_Rumor_Dataset)的时间较早,为2009-2017年的数据。
因此,在朋友推荐下尝试使用八爪鱼软件对微博社区管理中心的举报信息进行抓取,记录下过程,方便后续查看。
1. 八爪鱼软件
下载并安装八爪鱼。
下载地址:https://www.bazhuayu.com/
2. 获取所有微博举报详情的链接和信息
① 按下图步骤新建任务
其中3中的网址,填写https://weibo.com/,保存设置后显示如下图所示,点击取消识别(这个功能一般只需要在提取数据时进行使用)
② 改浏览页面为浏览模式
改为浏览模式后,在页面登录自己的微博账号(后续需要使用cookie)。
登录完成后关闭浏览模式:
③ 设置登录cookie
点击打开网页旁边的设置,按如下步骤使用已登录好的cookie(这样可以避免采集过程中登录操作):
④ 设置转到要采集数据的页面的步骤
按下图所示步骤,设置点击投诉大厅的步骤:
跳转到投诉大厅后,按下图所示步骤,进入不实信息类别(因为我想做虚假新闻检测,该类比较符合要求,可以自选)
⑤ 采集微博举报详情的链接和信息
在以下页面点击自动识别:
可以看到我们想获取的信息就是结果公示所在的表中的信息。
在自动识别后,可点击切换识别结果,定位到我们想要采集的地方(红色标识定位到想要采集的地方,下部的表格里自动提取了所有字段信息供预览):
然而,我们不仅仅想要这一页的结果,但操作提示的黄框里已经为我们提供了翻页采集的方案,点击查看,可以定位到“下一页这个按钮”。因此直接点击生成采集设置,就可以了。
⑥开始采集信息
可以注意到,流程图中具有以下的循环块:
点击“采集”按钮,就可以开始采集数据了,免费版只能选择本地采集。
可手动停止采集,采集到的数据可导出Excel,cvs等等格式,获取到的文件打开如下图:
3. 获取所有微博被举报的文本和图片等详细信息
啊~好难写。写个思路吧:
把刚刚获取到的第二列链接单独提出来,新建任务,从文件导入链接。
设置循环打开页面,按照第2大步中的点击按钮的方法、设置cookie的方法等等操作流程图上的步骤,进行采集。如果有问题,欢迎留言~