最新python抓取b站视频评论数据,支持分页爬取,新手也能看懂

前言

最近在开发b站协议的一些功能,用到了抓评论的技术,来分享一下

编码不易,请支持原创!付费后,可获取完整python爬虫源码及结果文件。使用中有任何问题都可以免费咨询。

一,首先看一下爬取的结果

图片

图片

篇幅太长,只展示部分结果

这段代码我已经完善了,只要设置好自己的cookie,以及想要抓取评论的视频地址,运行后就可以生成结果了

图片

图片

可以自动抓取下一页的评论

抓取的字段包含:昵称,性别,ip,评论,以及其他字段我在代码中都有注释,可根据自己的实际情况来使用。

二,爬虫代码

 会用到的库

#B站评论分页爬取,作者野火,本代码仅供学习交流,禁止违法用途import requestsimport hashlibimport timeimport jsonimport refrom fake_useragent import UserAgentimport csvfrom urllib.parse import quote

 定义请求头: cookie必须设置,否则无法抓到数据

 headers={            'User-Agent': UserAgent().random,            'Cookie':设置自己的cookie,            'Referer':'https://www.bilibili.com/'    }

    获取cookie的操作如下:

    1. 登录b站,随便点击一个视频

    2. 刷新评论,找到main这个url

      图片

        点击这个url,复制cookie的值,然后粘贴到代码中

图片

点击payload,查看所提交的参数

图片

参数解析

'oid':#视频唯一标识'type': '1',#不用改# 'seek_rpid':'',#不用改'mode': '3',#不用改'pagination_str': '',#翻页参数'plat':'1',#不用改'web_location': '1315875',#不用改'w_rid': w_rid,#加密参数,后面会讲到如何获取'wts':date,#时间戳,十位的

获取十位时间戳

date = int(time.time())

获取视频唯一标识

#获取oiddef get_oid(author_url):    rsp = requests.get(author_url,headers=headers)    oid = re.findall(r'"aid":(\d+),',rsp.text)[0]    return oid

定义保存文件的信息

f = open('data.csv', mode='w', encoding='utf-8-sig', newline='') # 创建文件对象,保存数据 csv_writer = csv.DictWriter(f, fieldnames=[ '昵称', '性别', 'IP', '评论', '点赞', ]) csv_writer.writeheader()

注意 ,这里编码格式一定要设置'utf-8-sig',否则会出现乱码

三,完整代码

编码不易,请支持原创!

代码本人为2024年5月17日本人测试后的最新代码,替换掉视频地址和你的cookie就行,保证可以正常运行!

代码地址:2024最新Python爬取B站视频全部评论

获取完整代码公众号:野火网创项目

  • 6
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值