- re
(http.cookiejar 后续爬虫进场会使用到的库,本项目反爬不涉及所以可以不添加)
如果import过程显示没有上述库,可以通过文件→设置→projet interpreter中右侧点击+来添加(如果您使用anaconda或者python也可以直接运行本项目,通过cmd→pip install添加)
2.在本文中我们通过python对于在线的短视频进行爬取,下载存储。基本步骤如下(可以写注释梳理思路):
(1)分析页面URL和视频文件URL特征
(2)获取网页源代码HTML,解决反爬机制
(3)批量下载视频存储
1.分析网页URL
通过网页网址:http://www.budejie.com/video/1,我们可以发现针对不同页码变化的知识网址最后一个数值,而这个数值代表了页数,所以只需要改变为固定网址+变量的形式批量获取该站的网址URL
2.分析文件名URL
通过对于网页当中的mp4的文件名进行分析,发现文件的URL是明文显示的,所以通过re的正则可以匹配获取。
import