python 采集斗图啦xpath

最新推荐文章于 2021-05-09 00:06:38 发布

程序员子枫

最新推荐文章于 2021-05-09 00:06:38 发布

阅读量567

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39898752/article/details/107674017

版权

import requests; import re; import os; import parsel;

1.请求网页

header = { "user-agent":'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36' } response = requests.get('https://www.doutula.com/photo/list/',headers=header) html = response.text

2.解析网页

selector = parsel.Selector(html)

print(selector)

dir_name = 'doutu_list' if not os.path.exists(dir_name): os.mkdir(dir_name)

result_list = selector.xpath('//a[@class="col-xs-6 col-sm-3"]') for result in result_list: title = result.xpath('./img/@alt').get() img_url = result.xpath('./img/@data-original').get() ext = img_url.split('.')[-1] file_name = title+'.'+ext print(title,img_url) # 保存 response = requests.get(img_url,headers=header) with open(dir_name+'/'+file_name,'wb') as f: f.write(response.content)

高颜值后台管理系统免费使用 ### 子枫后台管理系统 ###，可在宝塔面板直接安装

欢迎关注我的公众号：子枫的奇妙世界，获得独家整理的学习资源和日常干货推送。如果您对我的其他专题内容感兴趣，直达我的个人博客：www.wangmingchang.com 。

程序员子枫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
python 采集斗图啦xpath

import requests;import re;import os;import parsel;1.请求网页header = { "user-agent":'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}response = requests.get
复制链接

扫一扫

程序员子枫 CSDN认证博客专家 CSDN认证企业博客

码龄7年

96: 原创

5万+: 周排名

154万+: 总排名

19万+: 访问

: 等级

2440: 积分

158: 粉丝

82: 获赞

15: 评论

704: 收藏

私信

关注

热门文章

分类专栏

其他 2篇
mysql 1篇
每日整理 1篇
go 1篇
java 2篇
小程序专栏
小程序 8篇
PHP 38篇
tp5 19篇
微信 4篇
Linux 4篇
js/jq 2篇

最新评论

win命令行输入vue ui没反应
guolinru: C:\Users\Administrator>vue ui � Starting GUI... � Ready on http://localhost:8000 events.js:292 throw er; // Unhandled 'error' event ^ Error: spawn cmd ENOENT at Process.ChildProcess._handle.onexit (internal/child_process.js:268:19) at onErrorNT (internal/child_process.js:468:16) at processTicksAndRejections (internal/process/task_queues.js:84:21) Emitted 'error' event on ChildProcess instance at: at Process.ChildProcess._handle.onexit (internal/child_process.js:274:12) at onErrorNT (internal/child_process.js:468:16) at processTicksAndRejections (internal/process/task_queues.js:84:21) { errno: -4058, code: 'ENOENT', syscall: 'spawn cmd', path: 'cmd', spawnargs: [ '/c', 'start', '""', '/b', 'http://localhost:8000' ] } 我出现这种情况是为啥
PHP使用Echo打印字符串
大家一起学编程（python）: 大佬就是大佬，666
PHP从基础到高级详细教程(完整版)
程序员子枫: 可以私信我
PHP从基础到高级详细教程(完整版)
weixin_50939453: 可不可以帮我解答一下问题
PHP从基础到高级详细教程(完整版)
王子逸龙: 谢谢博主

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

程序员子枫 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。