python XPath

最新推荐文章于 2024-04-07 08:00:00 发布

沉默的记录者

最新推荐文章于 2024-04-07 08:00:00 发布

阅读量1w

点赞数

提取Item

选择器介绍

我们有很多方法从网站中提取数据。Scrapy 使用一种叫做 XPath selectors的机制，它基于 XPath表达式。如果你想了解更多selectors和其他机制你可以查阅资料http://doc.scrapy.org/topics/selectors.html#topics-selectors
这是一些XPath表达式的例子和他们的含义

/html/head/title: 选择HTML文档<head>元素下面的<title> 标签。
/html/head/title/text(): 选择前面提到的<title> 元素下面的文本内容
//td: 选择所有 <td> 元素
//div[@class="mine"]: 选择所有包含 class="mine" 属性的div 标签元素

这只是几个使用XPath的简单例子，但是实际上XPath非常强大。如果你想了解更多XPATH的内容，我们向你推荐这个XPath教程http://www.w3schools.com/XPath/default.asp

为了方便使用XPaths，Scrapy提供XPathSelector 类，有两种口味可以选择， HtmlXPathSelector (HTML数据解析) 和XmlXPathSelector (XML数据解析)。为了使用他们你必须通过一个 Response 对象对他们进行实例化操作。你会发现Selector对象展示了文档的节点结构。因此，第一个实例化的selector必与根节点或者是整个目录有关。
Selectors 有三种方法

select()：返回selectors列表, 每一个select表示一个xpath参数表达式选择的节点.
extract()：返回一个unicode字符串，该字符串为XPath选择器返回的数据
re()：返回unicode字符串列表，字符串作为参数由正则表达式提取出来

沉默的记录者

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

沉默的记录者 CSDN认证博客专家 CSDN认证企业博客

码龄16年

76: 原创

25万+: 周排名

173万+: 总排名

27万+: 访问

: 等级

3139: 积分

24: 粉丝

18: 获赞

15: 评论

47: 收藏

私信

关注

热门文章

最新评论

python中文处理
weixin_43528072: 15576617456，小白
python中文处理
weixin_43528072: 大佬，我windows 下的pycharm刚刚装的就报错，求解卸载几次了,python3.6也卸载几次了 (venv) C:\Users\Administrator\PycharmProjects\django1>python manage.py runserver 8000 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc1 in position 0: invalid start byte
python clear shell window
san兄弟: 很赞很有用
python clear shell window
stephenHK: 不错很好用！！
python clear shell window
lionjune: Good

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。