python爬虫资源下载,其实就是获取这个资源的下载链接,比如,xxx.jpg, xxx.zip, xxx.mp4等文件的链接,其中注意,当文件很大,容易出现断点,可以使用 header元素 的 range字段 从断点继续下载即可。
# 1.1不稳定
# 1.2稳定
完整代码,直接复制调用就能使用
import os
import time
import random
import requests
from tqdm import tqdm
def down_from_url(url, dst):
# 1.获取 url 的媒体流
response = requests.get(url, stream=True)
# 2.url 的 "bit" 内容长度
file_size = int(response.headers['content-length'])
# 3.和缓存文件比较
if os.path.exists(dst):
first_byte = os.path.getsize(dst)
else:
first_byte = 0
# 4.完整则 return