前言
今天教大家用Python采集一个二次元小姐姐图片, 里面漂亮的小姐姐******,懂的都懂,快学起来吧
话不多说,直接开始
开发环境
- python 3.6
- pycharm
- requests
- parsel
- os
步骤:
-
找数据相对应的链接
-
发送地址请求
-
数据解析<解析我们要的数据>
-
然后数据保存(本地)
1. 第一步,找到链接地址
代码如下
↓
# url编码: 中文在请求和响应的时候转码, http协议默认不支持中文, 由 % 字母 数字
request_address = f'https://www.jdlingyu.com/tag/%e5%b0%91%e5%a5%b3/page/{page}'
# 代表浏览器身份标识
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
2. 编写一个代码发送地址的请求
response = requests.get(url=request_address, headers=headers)
html_data = response.text # 字符串 -- 正则
print(html_data)
试试看对不对,不对再改
3. 数据解析<解析我们要的数据> html数据.xpath
selector = parsel.Selector(html_data) # 转换数据类型
lis = selector.xpath('//div[@id="post-list"]/ul/li') # 所有相册的标签
for li in lis: # 一个一个操作相册标签对象
pic_title = li.xpath('.//h2/a/text()').get() # 相册标题
pic_href = li.xpath('.//h2/a/@href').get() # 相册地址
print(pic_title, pic_href)
4. 再保存数据
with open(f'img\\{pic_title}\\{pic_name}', mode='wb') as f:
f.write(img_data)
print('保存完成:', pic_name)
运行
学会了吗
想要源码的加扣裙:704942100里面还有免费学习资料