import re import os import requests if __name__ == '__main__': # 创建一个文件夹,保存所有的图片 if not os.path.exists('./##'): os.mkdir('./##') # - 指定url url = '*******' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36' } # 使用通用爬虫对url对应的一整张页面进行爬取 # - 发起请求 # - 获取响应数据 response = requests.get(url=url, headers=headers).text # print(response) # 使用聚焦爬虫将页面中的所有图片进行解析 # - 数据解析 ex = '<img[^>]*src="([^"]+)' img_src_list = re.findall(ex, response, re.S) print(img_src_list) for src in img_src_list: # http://ent.bokee.com/ # 拼接出一个完整的图片url src = 'http://ent.bokee.com/' + src # 请求获取到图片的二进制数据 img_data = requests.get(url=src, headers=headers).content # 生成图片名称 img_name = src.split('/')[-1] # - 持久化存储 # 图片存储路径 imgPath = './##/' + img_name with open(imgPath, 'wb') as fp: fp.write(img_data) print(img_name, '下载成功!')
正则表达式爬取页面图片(<img[^>]*src=“([^“]+))
最新推荐文章于 2024-05-14 11:00:23 发布