奥运会国家队都是什么神仙颜值啊！Python带你来揭秘！真的超美！(1)-CSDN博客

本文链接：https://blog.csdn.net/2401_84140442/article/details/138376118

首先我们打开B站找到我们要找的视频。

F12打开浏览器开发者模式，找到如下链接。

经过测试发现，目前它是通过Js经行渲染的，想通了这一点，那就可以马上去找接口了。

可以看到我们所有爬取的评论信息全在在一个不规则的json文件当中

å¾ç

https://api.bilibili.com/x/v2/reply/main?callback=jQuery172011288135593018156_1627894496820&jsonp=jsonp&next=2&type=1&oid=674425220&mode=3&plat=1&_=1627894506606

https://api.bilibili.com/x/v2/reply/main?callback=jQuery172011288135593018156_1627894496821&jsonp=jsonp&next=3&type=1&oid=674425220&mode=3&plat=1&_=1627894508981

https://api.bilibili.com/x/v2/reply/main?callback=jQuery172011288135593018156_1627894496822&jsonp=jsonp&next=4&type=1&oid=674425220&mode=3&plat=1&_=1627894510667

https://api.bilibili.com/x/v2/reply/main?callback=jQuery172011288135593018156_1627894496823&jsonp=jsonp&next=5&type=1&oid=674425220&mode=3&plat=1&_=1627894567580

从上面的URL地址以及图片，可以看出一共有8个查询参数。

callback：每加载出一次便加1操作。

next：每加载一次便加1操作，next是从0开始加载的。

_：13位的时间戳。‍‍‍‍‍‍‍‍‍‍‍‍

发送请求

我们首先模拟浏览器来发送请求获取到这个json数据集，然后获取具体的

评论者、行呗、评论时间、点赞人数和具体的评论内容

url = f’https://api.bilibili.com/x/v2/reply/main?callback=jQuery172009047692616139114_{1627891325400 + page}&jsonp=jsonp&next={page}&type=1&oid=674425220&mode=3&plat=1&_={time_thick}’

headers = {

“cookie”: “_uuid=BA408FD2-1B4E-DCB0-1CBE-71233AE9FB2918358infoc; buvid3=BA184AFC-F4DC-408A-8897-D0EDEA653CE5148812infoc; sid=ld1hsb9h; fingerprint=84acc3579a53d0eba78d769e71574df6; buvid_fp=BA184AFC-F4DC-408A-8897-D0EDEA653CE5148812infoc; buvid_fp_plain=BA184AFC-F4DC-408A-8897-D0EDEA653CE5148812infoc; DedeUserID=434541726; DedeUserID__ckMd5=448fda6ab5098e5e; SESSDATA=40011147%2C1643348516%2Ce493c*81; bili_jct=1d136ab44a600313299942bf8f6b8f95; CURRENT_FNVAL=80; blackside_state=1; rpdid=|(u)YJR_R)m0J’uYk~~mY~Y); bsource=search_baidu; PVID=1; bfe_id=393becc67cde8e85697ff111d724b3c8”,

‘referer’: ‘https://www.bilibili.com/video/BV1uU4y1H7wL’,

‘user-agent’: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.8 Safari/537.36’

}

resp = requests.get(url, headers=headers)

ic(resp.text)

前面说到我们获取的这个json格式的数据集不是一个标准的json

就是因为前面多了一串

‘jQuery172009047692616139114_1627891325400’