Python应用(三)爬虫基础(一)下载资源链接

智能之心

已于 2022-05-13 09:55:36 修改

阅读量968

点赞数

分类专栏： # 爬虫工具专栏文章标签： python 爬虫开发语言

于 2022-05-12 20:26:24 首次发布

本文链接：https://blog.csdn.net/weixin_41275726/article/details/124738764

版权

本文介绍了Python爬虫如何下载资源链接，特别是大文件如.jpg、.zip、.mp4等，强调了在文件较大时利用HTTP头的range字段实现断点续传的功能。提供了一份可以直接调用的完整代码示例。

摘要由CSDN通过智能技术生成

python爬虫资源下载，其实就是获取这个资源的下载链接，比如，xxx.jpg, xxx.zip, xxx.mp4等文件的链接，其中注意，当文件很大，容易出现断点，可以使用 header元素的 range字段 从断点继续下载即可。

# 1.1不稳定

# 1.2稳定

完整代码，直接复制调用就能使用

import os
import time
import random
import requests
from tqdm import tqdm


def down_from_url(url, dst):
    # 1.获取 url 的媒体流
    response = requests.get(url, stream=True) 
    # 2.url 的 "bit" 内容长度
    file_size = int(response.headers['content-length'])
    # 3.和缓存文件比较
    if os.path.exists(dst):
        first_byte = os.path.getsize(dst)
    else:
        first_byte = 0
    # 4.完整则 return