- Python 多媒体文件下载(利用urllib) [ 笔记 ]

目录

 

语法说明

举个栗子


语法说明

urllib模块的urlretrieve()方法,可以直接远程数据下载到本地:

语法:

urlretrieve(url, filename=None, reporthook=None, data=None, context=None)

参数说明
url 
filename指定了本地的存储路径,如果这里没有指定参数,urllib会生成一个临时的文件用于存放
reporthook是一个回调函数,当连接上服务器以及相应的数据块都已经下载完毕的话,可以调用这个函数来显示一些进度
data指post到服务器的参数,该方法返回一个元组,这个元组包含了filename和headers,filename表示保存到本地的路径,而headers表示服务器的响应头
context 

这块就比较简单,因为整个下载的流程就分为3步:

  1. 网络请求
  2. 解析网页
  3. 下载图片

举个栗子

用以下代码,就可以将指定网页的图片下载下来: 

# -*- coding:utf-8 -*-
import urllib
from lxml import etree
import requests

i = 0

def running(i):
    print '当前正在下载第' + i + "张图片,请耐心等待下载 .."

url = 'http://588ku.com/?h=bd&sem=1'
r = requests.get(url)  # 网络请求
content = r.text
if r.status_code == requests.codes.ok:
    # 使用lxml解析网页
    html = etree.HTML(content)
    # 找到所有的img
    img_urls = html.xpath('.//img/@src')
    # 下载图片
    for img_url in img_urls:
        urllib.urlretrieve(img_url, 'img' + str(i) + '.jpg', running(str(i)))
        i = i + 1
else:
    r.raise_for_status()

有两点需要说明 ——

  1. url是我随便找的,如有侵权,可以留言我换掉
  2. 对于img_urls = html.xpath('.//img/@src')这行代码,如果有不懂的小伙伴,可以移步到 - Web前端基础 XPath [ 笔记 ]这里看一下对xpath的解释
  3. 以上,that‘s all~
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
可以使用 Python 自带的 urllib 库来下载文件。可以使用 urllib.request.urlretrieve() 方法来下载文件。 以下是一个示例代码: ```python import urllib.request url = 'http://www.example.com/file.txt' filename = 'file.txt' urllib.request.urlretrieve(url, filename) ``` 在上面的代码中,url 是要下载的文件的 URL,filename 是保存该文件的路径和文件名。 如果你需要下载的文件需要身份验证,可以使用 urllib.request.HTTPBasicAuthHandler() 方法来添加身份验证信息。以下是一个示例代码: ```python import urllib.request import urllib.error url = 'http://www.example.com/file.txt' filename = 'file.txt' username = 'your_username' password = 'your_password' password_mgr = urllib.request.HTTPPasswordMgrWithDefaultRealm() password_mgr.add_password(None, url, username, password) auth_handler = urllib.request.HTTPBasicAuthHandler(password_mgr) opener = urllib.request.build_opener(auth_handler) try: urllib.request.install_opener(opener) urllib.request.urlretrieve(url, filename) except urllib.error.URLError as e: print(e.reason) ``` 在上面的代码中,我们使用了 HTTPPasswordMgrWithDefaultRealm() 方法来创建密码管理器,添加了我们的用户名和密码。然后使用 HTTPBasicAuthHandler() 方法来创建身份验证处理器。使用 build_opener() 方法来创建 opener 对象,使我们能够使用身份验证访问 URL。最后使用 install_opener() 方法来安装 opener 对象。如果下载过程中出现错误,我们打印错误信息。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值