python百度图片网页解析，批量爬取（仅供学习）

傻傻的小丫头

已于 2023-03-18 19:02:53 修改

阅读量3.2k

点赞数 1

文章标签： python 百度学习网络爬虫

于 2023-03-17 22:21:58 首次发布

本文链接：https://blog.csdn.net/qq_52764364/article/details/129602239

版权

百度图片批量爬取

百度图片爬取python

百度图片爬取python

1.解析网页

打开浏览，百度搜索，上图
打开浏览器里面的调试窗口按F12即可
然后找出图片的url,点击这个，可以快速定位页面源代码，这里我直接抓取里面的json格式里面所对应的图片url
分析返回的数据，看图抓包，我们只需要复制里面的Request URL作为url 5. 可以点击箭头所指数据，类似的都是返回图片的相关信息，包括url，如图

2.爬取代码

import requests#导入请求库
import time
import re
url='https://image.baidu.com/search/acjson?tn=resultjson_com&logid=12009735572442623815&ipn=rj&ct=201326592&is=&fp=result&fr=&word=%E5%94%90%E5%AB%A3&cg=star&queryWord=%E5%94%90%E5%AB%A3&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&hd=&latest=&copyright=&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&expermode=&nojc=&isAsync=&pn=30&rn=30&gsm=1e&1678976552414='
#添加请求头，模拟浏览器，有些网站可以不加这个，不过最好是加上，油多不坏菜这个道理
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.63 Safari/537.36'}
res=requests.get(url,headers=headers)#发送请求，返回数据
html=res.text#把返回的内容解析
# 使用正则表达式匹配图片url
img_url_list=re.findall('"thumbURL":"(.*?)"',html)
#print(img_url_list)
for i in range(len(img_url_list)):
    res_img=requests.get(img_url_list[i],headers=headers)
    img=res_img.content#这个里是图片，我们需要返回二进制数据
    # 把图片保存起来
    with open(str(i)+'tangyan_img.jpg','wb')as f:
        f.write(img)
    time.sleep(3)#每当保存一张图片，先暂停一下，不然太频繁容易发现是机器爬虫，导致无法获取

print("爬取{}张图片成功".format(i))