简单说说Python爬取图片数据的一个流程:
1、发送请求:调用requests模块里的get请求方法对于url地址发送请求,并且携带上headers请求头伪装,最后用自定义变量名接收返回数据;
2、获取数据:调用re模块里的findall方法,找到所有我们想要的数据;
3、发送请求:此次请求是发送给目标图片所在的网页地址;
4、获取数据;
5、解析图片:因为我们爬取图片肯定不是只想要一张,那爬取大量图片呢,就需要找到这些图片的共同规律,从规律入手。
6、保存数据;
为什么会发送两次请求呢?答:第一是向主页面地址发送请求,第二是向目标图片的详细地址发送请求;
示例:爬取彼岸壁纸网站的图片
#导入数据请求模块
import requests
import re #正则表达式模块
url='http://www.netbian.com/dongman/index_2.htm' #请求链接
#模拟浏览器 开发者工具:headers->request headers->UA(User Agent)
#把爬虫程序伪装成浏览器去访问,防止被反爬
headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
'AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/96.0.4664.45 Safari/537.36'
}