目录
语法说明
urllib模块的urlretrieve()方法,可以直接远程数据下载到本地:
语法:
urlretrieve(url, filename=None, reporthook=None, data=None, context=None)
参数 | 说明 |
url | |
filename | 指定了本地的存储路径,如果这里没有指定参数,urllib会生成一个临时的文件用于存放 |
reporthook | 是一个回调函数,当连接上服务器以及相应的数据块都已经下载完毕的话,可以调用这个函数来显示一些进度 |
data | 指post到服务器的参数,该方法返回一个元组,这个元组包含了filename和headers,filename表示保存到本地的路径,而headers表示服务器的响应头 |
context |
这块就比较简单,因为整个下载的流程就分为3步:
- 网络请求
- 解析网页
- 下载图片
举个栗子
用以下代码,就可以将指定网页的图片下载下来:
# -*- coding:utf-8 -*-
import urllib
from lxml import etree
import requests
i = 0
def running(i):
print '当前正在下载第' + i + "张图片,请耐心等待下载 .."
url = 'http://588ku.com/?h=bd&sem=1'
r = requests.get(url) # 网络请求
content = r.text
if r.status_code == requests.codes.ok:
# 使用lxml解析网页
html = etree.HTML(content)
# 找到所有的img
img_urls = html.xpath('.//img/@src')
# 下载图片
for img_url in img_urls:
urllib.urlretrieve(img_url, 'img' + str(i) + '.jpg', running(str(i)))
i = i + 1
else:
r.raise_for_status()
有两点需要说明 ——
- url是我随便找的,如有侵权,可以留言我换掉
- 对于img_urls = html.xpath('.//img/@src')这行代码,如果有不懂的小伙伴,可以移步到 - Web前端基础 XPath [ 笔记 ]这里看一下对xpath的解释
- 以上,that‘s all~