油管频道video界面,不借助webdriver,如何获取所有完整数据
油管爬虫到目前为止已经运行了将近3年,经历了页面结构的不断变化和调整
一个正常的红人频道页面如下:
有home、videos、playlists、channels、about5个界面构成
分别代表首页、视频、播放列表、订阅频道、简介
video页面可以看到红人主播发布过的的所有历史视频,少则没有,多则上千,
如何利用http请求获取到所有的video呢?
研究发现,请求该页面时,默认返回前30个视频数据(如果数量大于30),后面的数据需要出发新的ajax请求进行加载
手动触发一下,发现了它请求的地址如下(这次它居然改成了post请求):
而且我们发现,不管拉多少页,这个地址都是不变的,那么我们只需要动态的构造出post请求所需要的data参数即可
看最下面,data采用的是request payload的方式,将里面可变的参数用动态参数替换