第九讲：Python爬取网页图片并保存到本地

最新推荐文章于 2024-06-22 15:53:39 发布

chuliaoza7780

最新推荐文章于 2024-06-22 15:53:39 发布

阅读量600

点赞数 1

文章标签： python 数据库

原文链接：https://my.oschina.net/u/4082616/blog/3071934

版权

上一讲我们说了如何把网页的数据通过分析后存储到数据库，我们这次讲如何将网页上的图片提取并下载到本地。

思路如下：

我们本次要爬取的是昵图网首页的图片。

1、首先分析我们要爬取的网页的代码结构，每个网页的代码结构都不大一样，所以要做好分析。

我们进入昵图网的首页，http://www.nipic.com/index.html

按F12开启浏览器的调试模式，可以通过鼠标看到图片的后台代码：点击调试的小箭头，然后点击对应的图片，既可以看到图片在页面上对应的编码。

或者，直接“查看源代码”就可以看到整个网页的源码

我们可以在源代码界面看到很多.jpg结尾的图片

我们可以直接通过查找来查看到底有多少张图片在页面上，我本次用的是360浏览器，每个浏览器的使用方法大同小异。

查找的快捷方式是Ctrl+F 同时按住两个按键就可以在提示框中输入查找的信息。

或者右击菜单“查找”

在关键词框中输入".jpg"

我们可以看到，系统提示是14张图片的链接。

2、编写代码，获取网页的图片，首先我们要这个页面的图片的大体格式是怎样的。

我们看下几个图片链接的代码格式：

上面三张图片的格式都是常见的：http://.......jpg，则我们可以把这个做成正则表达式的形式如：http:\S{1,}.jpg

则，我们利用前面两讲的代码，编写如下：

3、效果如下：

点击运行后，系统自动在D盘的image文件夹下载对应的图片

最终下载完后：

最后，其实你网速快的话，程序不设置休眠也可以。

最后，总结下我们本次用到的新知识：

1、函数：urllib.urlretrieve(url[, filename[, reporthook[, data]]])

函数说明

将URL表示的网络对象复制到本地文件。如果URL指向本地文件，则对象将不会被复制，除非提供文件名。返回一个元组()(filename，header)，其中filename是可以找到对象的本地文件名，header是urlopen()返回的对象的info()方法(用于远程对象)。
第二个参数(如果存在)指定要复制到的文件位置(如果没有，该位置将是一个生成名称的tempfile)。第三个参数，如果存在，则是一个回调函数，它将在建立网络连接时调用一次，并且在此后每个块读取后调用一次。这个回调函数将传递三个参数;到目前为止传输的块计数，以字节为单位的块大小，以及文件的总大小。第三个参数可能是-1，在旧的FTP服务器上，它不返回文件大小以响应检索请求。

参数说明：
url：外部或者本地url
filename：指定了保存到本地的路径（如果未指定该参数，urllib会生成一个临时文件来保存数据）；
reporthook：是一个回调函数，当连接上服务器、以及相应的数据块传输完毕的时候会触发该回调。我们可以利用这个回调函数来显示当前的下载进度。
data：指post到服务器的数据。该方法返回一个包含两个元素的元组(filename, headers)，filename表示保存到本地的路径，header表示服务器的响应头。

2、time.sleep(secs)

Python time sleep() 函数推迟调用线程的运行，可通过参数secs指秒数，表示进程挂起的时间。

3、os.makedirs()函数

语法格式：
os.makedirs(name[, mode=0o777][, exist_ok=False])

递归目录创建函数，和mkdir()很像，但是所有中间级目录都要包含叶目录。
递归创建目录，题中应有之意即路径中哪一层不存在，则自动创建。
区别于os.mkdir(path, mode=0o777, *, dir_fd=None)，只创建最后一层的目录。
name:所要创建的目录
参数mode表示权限；
如果exist_ok是False（默认），当目标目录（即要创建的目录）已经存在，会抛出一个OSError。
4、b=a.split('/')[-1]

我们不确定图片链接的长度，所以如果从左边开始取下标，则最后一个文件名的下标值是不一样的，不好操作，但是如果写的是-1，则说明要取得是右边第一个。

本节课没有课堂视频，因为新的教室没有带多余的麦克风。

转载于:https://my.oschina.net/u/4082616/blog/3071934

chuliaoza7780

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
第九讲：Python爬取网页图片并保存到本地

上一讲我们说了如何把网页的数据通过分析后存储到数据库，我们这次讲如何将网页上的图片提取并下载到本地。思路如下：我们本次要爬取的是昵图网首页的图片。 1、首先分析我们要爬取的网页的代码结构，每个网页的代码结构都不大一样，所以要做好分析。我们进入昵图网的首页，http://www.n...
复制链接

扫一扫