目标:爬取B站数据,从而获取指定番剧的更新信息
问题:在搜索界面查看网页源码时发现网页不是由静态H5构成,不直接包含所需要的信息,如下:
解决办法:
百度之后发现B站网页由动态JS加载,所以不能直接通过源码获取,需要通过F12工具获取页面的API接口,参考文章:https://blog.csdn.net/qq_33344121/article/details/78514861
主要核心步骤:
- 在搜索界面打开F12工具,F5刷新界面,找到如下js文件:
- 在preview页面能够看到result字段包括了要找的信息:
- 结合文章中的教程,可以通过以下函数获取json对象并存为字典
it