将各个分类的信息进行收集整合,本地化存储.
只展示思路.
url='https://www.bilibili.com/'
携带基本的Headers信息.https的请求头 verify=False
目标获取这几个分类的URL.
在我们能有效的获得对应的URL之后.
根据情况判断使用.
采用requests.session()的方法 .保留登录状态继续访问.
还是要说仔细分析当前页面的结构.你需要的结果是否有更快捷的方式获取.
URL:
当我们进去后,再看页面我们在观察.
这样模块的分类详情和分页都有了.
喜欢更详细的 获取到URL 后在 get . 提取信息就好了.
怎么存储你开心就好.
可以看出 爬虫是主体(仿佛在说废话).在解析过程中 加入 try 和 except 来抛出异常 , 抛出异常时,将报错信息 收集起来就行了.
仅供参考,有更好的建议欢迎提出.
下载链接(你自己看着玩吧).