爬虫实战-微博评论爬取

简介

最近在做NLP方面的研究,以前一直在做CV方面。最近由于chatgpt,所以对NLP就非常感兴趣。索性就开始研究起来了。

其实我们都知道,无论是CV方向还是NLP方向的模型实现,都是离不开数据的。哪怕是再先进的代码,都是需要数据支撑的。但是我们的数据都来自哪里呢。无非就两个方面,一方面是来自于公开的数据集,或者就是个人收集。那么个人收集数据的方法,最常用的页就是爬虫了。通过爬虫采集数据是非常非常方便的。那么接下来我就来介绍一下如何使用爬虫来采集微博上的评论数据。

下面是我采集的数据,具体如下:

在这里插入图片描述
可以看到基本上就是两类,一类是关于评论数据方面的,这里包括评论id,评论的时间,评论的ip地址,另外一类就是发布评论的作者信息,这里包括了评论者的username,个人简介,粉丝数量、关注的人,以及性别等等。

代码使用

那么我们应该怎么使用这个代码呢:
我们主要分为两步,一步是修改代码中的cookie的值,另外一方面就是找到你需要爬取的微博的id,然后运行代码就可以了。

代码中的cookie位置如下,我们在此处就可以进行修改了
在这里插入图片描述
在这里插入图片描述
那么我们应该怎么找到自己的cookie信息呢。
我们首先打开浏览器,然后输入微博,然后进入微博页面,随便点一个微博就可以了,此时我们按F12,如下所示
在这里插入图片描述
接下来的话,我们刷新页面即可,此时有一大波数据来袭
在这里插入图片描述
然后我们如下所示,点击一个文件,然后就可以看到cookie值了。具体如下所示:
在这里插入图片描述
另外一步就是,获取到对应微博的id,获取方式如下所示。我们复制就可以了
在这里插入图片描述
然后粘贴到代码中就就可以了
在这里插入图片描述
上述步骤都完成以后,我们就可以运行了。
在这里插入图片描述
具体的操作,请看如下视频:

爬虫实战-微博评论爬取

由于作者能力有限,所以在有些阐述上可能有些问题,还请谅解。

完整源码获取:爬虫实战-微博评论爬取
欢迎大家都动手实践!!!!

  • 10
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

陶陶name

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值