有时我们想在B站看到了不错教程,想把它下载下来,但是网站并没有提供下载方式。这时候我们就可以使用爬虫来爬取了。
第一步 准备软件
1.安装好python ,配置环境变量
2.安装you-get库,安装方法使用命令窗口输入“pip install you-get”
第二步 分析网址
我们以下面的教程为例
当我们点击第二集和第三集的时候,发现页面的网址分别为
第二集:
https://www.bilibili.com/video/av9784617?p=2
第三集:
https://www.bilibili.com/video/av9784617?p=3
我们观察可以发现两个网址几乎一样,只有最后的数字不一样。而且数字也比较有规律。这个之后我们就能猜想剩下的课程集数都是以此类推。
第三部 编写程序
当我们使用you-get库命令行下载文件时
命令为:you-get -o path,url
其中path(不写默认为当前路径)为文件存储的路径,
url为视频地址
所以完整代码为(这里是从第1集下载到21集)
import sys
import you_get
def download(url,path):
sys.argv=['you-get','-o',path,url]
you_get.main()
if __name__=='__main__':
start_url='https://www.bilibili.com/video/av9784617?p='
path = 'Q:/test/project'
for i in range(1,22,1):
url=start_url +str(1)
download(url,path)