- Python 多媒体文件下载（利用urllib） [ 笔记 ]

最新推荐文章于 2024-03-29 18:04:11 发布

极光 .

最新推荐文章于 2024-03-29 18:04:11 发布

阅读量400

点赞数

分类专栏： - Python爬虫开发与项目实战笔记。 - Python 。

本文链接：https://blog.csdn.net/weixin_42734407/article/details/81183085

版权

- Python爬虫开发与项目实战笔记。同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

- Python 。

4 篇文章 0 订阅

订阅专栏

语法说明

举个栗子

语法说明

urllib模块的urlretrieve()方法，可以直接远程数据下载到本地：

语法：

urlretrieve(url, filename=None, reporthook=None, data=None, context=None)

参数	说明
url
filename	指定了本地的存储路径，如果这里没有指定参数，urllib会生成一个临时的文件用于存放
reporthook	是一个回调函数，当连接上服务器以及相应的数据块都已经下载完毕的话，可以调用这个函数来显示一些进度
data	指post到服务器的参数，该方法返回一个元组，这个元组包含了filename和headers，filename表示保存到本地的路径，而headers表示服务器的响应头
context

这块就比较简单，因为整个下载的流程就分为3步：

网络请求
解析网页
下载图片

举个栗子

用以下代码，就可以将指定网页的图片下载下来：

# -*- coding:utf-8 -*-
import urllib
from lxml import etree
import requests

i = 0

def running(i):
    print '当前正在下载第' + i + "张图片，请耐心等待下载 .."

url = 'http://588ku.com/?h=bd&sem=1'
r = requests.get(url)  # 网络请求
content = r.text
if r.status_code == requests.codes.ok:
    # 使用lxml解析网页
    html = etree.HTML(content)
    # 找到所有的img
    img_urls = html.xpath('.//img/@src')
    # 下载图片
    for img_url in img_urls:
        urllib.urlretrieve(img_url, 'img' + str(i) + '.jpg', running(str(i)))
        i = i + 1
else:
    r.raise_for_status()

有两点需要说明 ——

url是我随便找的，如有侵权，可以留言我换掉
对于img_urls = html.xpath('.//img/@src')这行代码，如果有不懂的小伙伴，可以移步到 - Web前端基础 XPath [ 笔记 ]这里看一下对xpath的解释
以上，that‘s all~

极光 .

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
- Python 多媒体文件下载（利用urllib） [ 笔记 ]

目录语法说明举个栗子语法说明urllib模块的urlretrieve()方法，可以直接远程数据下载到本地：语法：urlretrieve(url, filename=None, reporthook=None, data=None, context=None)参数说明 url filename 指定了本地的存储路径，如果这里没有指定参...
复制链接

扫一扫