Scrapy框架 & XPath

最新推荐文章于 2022-10-03 16:47:38 发布

adamlay

最新推荐文章于 2022-10-03 16:47:38 发布

阅读量211

点赞数

分类专栏： # python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/adamlay/article/details/117992616

版权

python 专栏收录该内容

16 篇文章 1 订阅

订阅专栏

XPath

语句	作用
./	当前节点
…/	当前节点的父节点
/*	返回层级所有元素
//+元素	获得任意位置的该元素，当多个“//”一起使用的时候，有前后分层关系
/@+属性	获取元素中的属性
/*[@+属性]	任意位置（元素）获取属性
/元素[属性=值]	返回特定属性
/元素[contains(属性,模糊值)]	模糊匹配，包含
/元素[not(contains(属性,模糊值))]	模糊匹配，不包含
/元素[starts-with(属性,模糊值)]	模糊匹配，以……开头
/text()	只返回文本
//img/@src	返回图片的url
/following-sibling::div	选择某元素之后的所有div元素

Scrapy Shell

指令	功能
scrapy shell -s USER_AGENT=“Mozilla/5.0” URL地址	基本URL请求
scrapy shell --pdb URL地址	交互式调试
scrapy startproject 项目名称	创建Scrapy项目
scrapy genspider basic web	在spider文件夹自动创建一个默认爬虫“basic.py”
scrapy genspider -l	查看其他爬虫模板
scrapy genspider -t	使用其他模板创建爬虫
scrapy crawl basic(爬虫名)	运行爬虫
scrapy parse --spider=basic(爬虫名) url	解析任意相似URL
scrapy crawl basic(爬虫名)-o items.json(json文件名)	保存为json文件
scrapy crawl basic(爬虫名)-o items.csv(csv文件名)	保存为csv文件
Ctrl+D	退出Scrapy Shell

Response

指令	功能
response.body	响应体内容
response.xpath(xpath路径)	根据xpath路径返回网页内容预加载的Selector对象
response.css()	根据css内容（css规则书写）返回网页内容预加载的Selector对象
response.xpath() .extract()	返回xpath对象的文本数组
response.xpath() .re()	使用正则表达式匹配内容

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

adamlay CSDN认证博客专家 CSDN认证企业博客

码龄6年

135: 原创

4万+: 周排名

2万+: 总排名

21万+: 访问

: 等级

2146: 积分

264: 粉丝

182: 获赞

25: 评论

1520: 收藏

私信

关注

热门文章

分类专栏

数据分析 7篇
数据库 5篇
编程 3篇
C 5篇
python 16篇
工具 4篇
读书笔记 6篇
面试题 3篇
底层知识 6篇
功能性源代码模板 1篇
影视 8篇

最新评论

9.1 电商B2C商铺新用户复购预测
weixin_42275755: 您好呀，我想咨询一下。9.1 电商B2C商铺新用户复购预测。这篇文章，有原始数据吗！谢谢~
mysql与hql对比（命令、数据类型、函数）
qq_42552284: percent_rank first/last_value在mysql8.0中也有了已经
3.1Tableau数据可视化
豆羽: 请问3.2.3 转置（数据透视表）：*选中同一维度的多个标题列，转化为一列 —这是个不常用但非常有用的知识点这个怎样实现呢
Tableau函数
渴望力量的数据狗: 向上取整是不是写错了 celling-->ceiling
3.1Tableau数据可视化
qq_52428040: 您好，可不可以分享一下数据呀

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。