python批量下载百度图片_爬虫：大量爬取百度图片——python

最新推荐文章于 2023-06-24 03:44:50 发布

weixin_39910043

最新推荐文章于 2023-06-24 03:44:50 发布

阅读量534

点赞数

文章标签： python批量下载百度图片

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39910043/article/details/111779900

版权

本文介绍了如何使用Python批量下载百度图片，包括使用正则表达式抓取objURL、BeautifulSoup解析动态网页以及利用Selenium应对反爬虫策略，同时提供了代理池方法以避免IP被封。

摘要由CSDN通过智能技术生成

在进行图像处理时需要大量的图片进行分析，这时爬虫的作用就显得比较重要了，通过爬虫可以爬取大量的图片进行图像处理以及模型训练，下面就分享一种可以在百度图片上爬取大量图片的方法。

环境：python3.7+jupyter notbook

其他python3.7环境也行(比如pycharm)

1、使用正则表达式爬取百度图片

首先打开百度图片，会看到这个界面

然后鼠标右击查看网页源代码，一直往下滑，可以看到这个界面

从这里可以看到图片的网址在objURL里面，当然hoverURL等里面也有图片信息，不过objURL里面的图片清晰度比较高，所以这里一般用正则表达式爬取objURL里面的内容

代码附上：

#-*- coding:utf-8 -*-

import re

import requests

#url内输入你要下载的图片地址

url = 'https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gb18030&word=%BA%A3%CC%C4%BB%A8%B8%DF%C7%E5%CD%BC%C6%AC&fr=ala&ala=1&alatpl=adress&pos=0&hs=2&xthttps=000000'

headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36'}

html = requests.get(url=url,headers=headers).text

pic_url = re.findall('"objURL":"(.*?)",',html,re.S)

i=0

for each in pic_url:

print (each)

可以看到输出结果，是很多图片的网址

下面用get请求将这些图片保存在本地文件(这里保存在默认路径)

for each in pic_url:

print (each)

try:

pic= requests.get(each, timeout=10)

except requests.excepti

最低0.47元/天解锁文章

weixin_39910043

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python批量下载百度图片_爬虫：大量爬取百度图片——python

在进行图像处理时需要大量的图片进行分析，这时爬虫的作用就显得比较重要了，通过爬虫可以爬取大量的图片进行图像处理以及模型训练，下面就分享一种可以在百度图片上爬取大量图片的方法。环境：python3.7+jupyter notbook其他python3.7环境也行(比如pycharm)1、使用正则表达式爬取百度图片首先打开百度图片，会看到这个界面然后鼠标右击查看网页源代码，一直往下滑，可以看到这个界面...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。