用python写爬虫爬取图片_写一个简单的python爬虫程序，爬取一下百度图片

最新推荐文章于 2024-07-07 09:46:06 发布

知乎汽车

最新推荐文章于 2024-07-07 09:46:06 发布

阅读量212

点赞数

文章标签：用python写爬虫爬取图片

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_32715971/article/details/112885123

版权

申明

本文章仅供学习使用，若读者利用该方法进行违法犯罪活动与本人无关。

爬虫已经开始违法了，所以需要谨慎使用。

以下开始正文

首先，import几个需要用到的包

import requests #需要用这个包向百度发送请求

import re #需要用这个包进行正则匹配

import time #休眠一下，以免给服务器造成太大压力

requests在这里主要作用是向百度发送请求，也就是模仿人类的操作进行访问，有post和get两个方法，在这里我们用get方法就行。

然后，开始向百度发送请求，这里当然需要百度图片的链接，先访问一下百度图片看看链接张什么样。

url栏长这样：

http://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word=皮卡丘

剔除一些不必要的内容之后，可以长这样

http://image.baidu.com/search/index?tn=baiduimage&word=皮卡丘

不信你可以试试。

然后对url分析一下，前面的http://image.baidu.com/search/index?tn=baiduimage肯定是固定格式，不能变的，后面的word=皮卡丘很明显就是我们搜索的关键词。url解决了，接下去向百度发送请求。代码如下：

html = requests.get(url)

html.encoding = html.apparent_encoding #这里可以对需要爬取的页面查看一下源码，一般都是utf-8，但是不全是。

html = html.text #这里需要获取对应的文本，以便后面进行正则匹配操作

接下来的操作，是对源码进行操作，这里最好有一些web前端的知识，不会的话至少要回查看源码(最简单的操作就是在网址栏前面加view-source)

首先，在源码页搜一下jpg(百度图片的后缀，先找到图片的链接)

随便抓一个链接出来分析一下：

{"ObjURL":"http:\/\/tiebapic.baidu.com\/forum\/pic\/item\/6cad1f30e924b8998595da4079061d950b7bf6b6.jpg","ObjUrl":"http:\/\/tiebapic.baidu.com\/forum\/pic\/item\/6cad1f30e924b8998595da4079061d950b7bf6b6.jpg"

把里面的http:\/\/tiebapic.baidu.com\/forum\/pic\/item\/6cad1f30e924b8998595da4079061d950b7bf6b6.jpg抓出来，访问一下，发现可以访问。多试几个，发现只有objURL开头的才能访问，但是objURL开头的也不一定能访问。不管了，先将所有的以

"ObjURL":"xxxx"

格式的链接全部找出来，这时候就需要利用正则匹配了。代码如下：

urls = re.findall('"objURL":"(.*?)"',html,re.S) #导入的re包就在这里用

要注意，re.findall匹配出来的数据是一个列表，需要用for循环一个个的访问：

i = 0

for url in urls:

time.sleep(3) #休眠3秒

imag = requests.get(url,timeout = 6).content

#timeout代表每次request请求最多6秒，不然万一卡住了呢

if imag:

with open(str(i) + '.jpg','wb') as f:

print('正在下载第 %d 张图片：%s' % (i + 1,url))

f.write(imag)

i += 1

else:

print('链接超时，图片下载失败')

print('图片下载成功')

一个最最简单的爬虫写好了，但是稍微有一点点错误就会报错，没有所谓的健壮性，怎么改进爬虫呢，将在下一篇文章进行讲解。

完整代码如下，大家可以自行体验一下：

import requests

import re

import time

url = 'http://image.baidu.com/search/index?tn=baiduimage&word=皮卡丘'

html = requests.get(url)

html.encoding = html.apparent_encoding

html = html.text

urls = re.findall('"objURL":"(.*?)"',html,re.S)

i = 0

for url in urls:

time.sleep(3) #休眠3秒

imag = requests.get(url,timeout = 6).content

#timeout代表每次request请求最多6秒，不然万一卡住了呢

if imag:

with open(str(i) + '.jpg','wb') as f:

print('正在下载第 %d 张图片：%s' % (i + 1,url))

f.write(imag)

i += 1

else:

print('链接超时，图片下载失败')

print('图片下载成功')

注意：最后送大家一套2020最新企业Pyhon项目实战视频教程，点击此处进来获取跟着练习下，希望大家一起进步哦！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。