python爬虫实战——5分钟做个图片自动下载器，附赠复习资料-CSDN博客

本文链接：https://blog.csdn.net/m0_61369360/article/details/137895026

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Python知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip1024c （备注Python）

正文

这里还一个技巧，就是：能爬手机版就不要爬电脑版，因为手机版的代码很清晰，很容易获取需要的内容。

好了，切换回传统版本了，还是有页码的看的舒服。

我们点击右键，查看源代码

这都是什么鬼，怎么可能看清！！

这个时候，就要用F12了，开发者工具！我们回到上一页面，按F12，出来下面这个工具栏，我们需要用的就是左上角那个东西，一个是鼠标跟随，一个是切换手机版本，都对我们很有用。我们这里用第一个

然后选择你想看源代码的地方，就可以发现，下面的代码区自动定位到了这个位置，是不是很NB!

我们复制这个地址

然后到刚才的乱七八糟的源代码里搜索一下，发现它的位置了！（小样！我还找不到你！)但是这里我们又疑惑了，这个图片怎么有这么多地址，到底用哪个呢？我们可以看到有thumbURL，middleURL，hoverURL，objURL

通过分析可以知道，前面两个是缩小的版本，hover是鼠标移动过后显示的版本，objURL应该是我们需要的，不信可以打开这几个网址看看，发现obj那个最大最清晰。

好了，找到了图片位置，我们就开始分析它的代码。我看看是不是所有的objURL全是图片

貌似都是以.jpg格式结尾的，那应该跑不了了，我们可以看到搜索出61条，说明应该有61个图片

编写正则表达式

=======

通过前面的学习，写出如下的一条正则表达式不难把？

pic_url = re.findall(‘“objURL”:“(.*?)”,’,html,re.S)

编写爬虫代码

======

好了，正式开始编写爬虫代码了。这里我们就用了2个包，一个是正则，一个是requests包，之前也介绍过了，没看的回去看！

#-- coding:utf-8 -- import re import requests

然后我们把刚才的网址粘过来，传入requests，然后把正则表达式写好

url = ‘http://image.baidu.com/search/flip?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1460997499750_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E5%B0%8F%E9%BB%84%E4%BA%BA’ html = requests.get(url).text pic_url = re.findall(‘“objURL”:“(.*?)”,’,html,re.S)

理论有很多图片，所以要循环，我们打印出结果来看看，然后用request获取网址，这里由于有些图片可能存在网址打不开的情况，加个5秒超时控制。

pic_url = re.findall(‘“objURL”:“(.*?)”,’,html,re.S) i = 0 for each in pic_url: print each try: pic= requests.get(each, timeout=10) except requests.exceptions.ConnectionError: print ‘【错误】当前图片无法下载’ continue

好了，再就是把网址保存下来，我们在事先在当前目录建立一个picture目录，把图片都放进去，命名的时候，用数字命名把

string = ‘pictures\’+str(i) + ‘.jpg’

fp = open(string,‘wb’)

fp.write(pic.content)

fp.close()

i += 1

整个代码就是这样：

#-- coding:utf-8 --

import re

import requests

html = requests.get(url).text

pic_url = re.findall(‘“objURL”:“(.*?)”,’,html,re.S)