Python网络爬虫实例——正则表达式爬取B站排行榜
1.爬取分析
需要抓取的目标站点为:https://www.bilibili.com/v/popular/rank/all
页面中显示的有效信息有视频名称、播放量、分享数、up主名、综合得分、封面图片等信息。
根据视频分类,观察页面的URL变化
https://www.bilibili.com/v/popular/rank/bangumi
发现URL路径发生变化,all变成了bangumi
初步判断不同分类视频放在不同的路径下
可以把路径存放在元组中,循化爬取
2.抓取全站榜单
首先先试着抓取全站的榜单
原创
2020-12-13 20:59:46 ·
1672 阅读 ·
3 评论