-
常见请求头的反爬
-
json数据的处理
-
csv文件处理
项目思路解析
找到你需要采集的视频地址(EDG牛逼!!!!)
网址:【S11全球总决赛】决赛 11月6日 EDG vs DK_哔哩哔哩bilibili_英雄联盟
爬虫采集数据首先要找到对应的数据目标地址,可以明显看出当前的网页的评论数据是在不断变化的,需要找到对应的评论接口,习惯性的去找动态数据。
数据并没有在动态数据里,清空数据加载新的评论数据,触发加载条件。
加载的数据在all里,明确数据之后就好处理了,获取到对应的网页接口,通过requests发送网络请求。
url = ‘https://api.bilibili.com/x/v2/reply/main?jsonp=jsonp&next={}&type=1&oid=891511588&mode=3&