Python从网上下载图片的方法

最新推荐文章于 2024-03-11 07:38:46 发布

VIP文章此账号已弃用

最新推荐文章于 2024-03-11 07:38:46 发布

阅读量1.2w

点赞数 1

分类专栏：简单的代码文章标签： python HTMLParser urllib2 图片 html

本文链接：https://blog.csdn.net/J_C_Weaton/article/details/53895149

版权

Download Images with Python

*本文所使用的Python版本为2.7

Part 1. urllib2

urllib2是Python标准库提供的与网络相关的库，是写爬虫最常用的一个库之一。
想要使用Python打开一个网址，最简单的操作即是：

your_url = "http://publicdomainarchive.com/"
html = urllib2.urlopen(your_url).read()

这样所获得的就是对应网址(url)的html内容了。

但有的时候这么做还不够，因为目前很多的网站都有反爬虫机制，对于这么初级的代码，是很容易分辨出来的。例如本文所要下载图片的网站http://publicdomainarchive.com/，上述代码会返回HTTPError: HTTP Error 403: Forbidden错误。

那么，在这种情况下，下载网络图片的爬虫（虽然只有几行代码，但一个也可以叫做爬虫了吧，笑），就需要进一步的伪装。

要让爬虫伪装成浏览器访问指定的网站的话，就需要加入消息头信息。所谓的消息头信息就是在浏览器向网络服务器发送请求时一并发送的请求头(Request Headers)信息和服务器返回的响应头(Response Headers)信息。

例如，使用FireFox打开http://publicdomainarchive.com/时所发送的Request Headers的部分内容如下：

Host:"publicdomainarchive.com/"
User-Agent:"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0"
Accept:"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"
...

还有一些其他属性，但其中伪装成浏览器最重要的部分已经列出来了，即User-Agent信息。

要使用Headers信息，就不能再仅仅向urlopen方法中传入一个地址了，而是需要将HTTP Request的Headers封装后传入：

最低0.47元/天解锁文章

此账号已弃用

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
5
评论
Python从网上下载图片的方法

Download Images with Python*本文所使用的Python版本为2.7Part 1. urllib2urllib2是Python标准库提供的与网络相关的库，是写爬虫最常用的一个库之一。想要使用Python打开一个网址，最简单的操作即是：your_url = "http://publicdomainarchive.com/"html = urllib2.urlopen(yo
复制链接

扫一扫