工具 : requests 库
解析: beautifulsoup
任务: 视频抓取
1,分析目标网站
寻找一个虚拟的头文件
User-Agent:
Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36
定义一个视频存储的路径
root="D://SP//"
并且以url的最后一个“\”后的字符问视频名称
path = root + url.split('/')[-1]
然后用 try except 框架来判断文件夹是否存在 如若不存在 那么就调用requests库来进行爬取,进行保存
若果存在 就报文件存在
贴出源码
#引入requests库
import requests
#解析主页,获得url
url =" https://qiniu-xpc10.xpccdn.com/5e38f4b527a11.mp4"
import os
#根据解析主页,给定一个use-agent
header={"Use-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"}
#给定一个根目录
root="D://SP//"
#定义一个路径,并根据url设定一个底层文件
path = root + url.split('/')[-1]
#用try,expcet来完成主框架,判断是否存在根目录,若不存在,进行创建,判断是否存在路径,若不存在进行requests获取,保存文件。
try:
if not os.path.exists(root):
os.mkdir(root)
if not os.path.exists(path):
r=requests.get(url,headers=header)
with open(path, 'wb')as f:
f.write(r.content)
f.close()
print("文件保存成功")
else:
print("文件已存在")
except:
print("爬取失败")
转载本文请联系原作者获取授权,同时请注明本文来自李鸿斌科学网博客。
链接地址:http://blog.sciencenet.cn/blog-3387053-1218656.html
上一篇:python 3.7安装及第三方pillow库的安装
下一篇:youtube-dl