《Xpath笔记》 1 — 基本认识

最新推荐文章于 2024-09-10 13:01:50 发布

HKNMTT1994

最新推荐文章于 2024-09-10 13:01:50 发布

阅读量98

点赞数

分类专栏：网络爬虫文章标签： xpath python

本文链接：https://blog.csdn.net/Ara____/article/details/104788703

版权

网络爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

常用规则

表达式	描述
nodename	选取此节点所有子节点
/	从当前节点直接选取所有子节点
//	从当前节点直接选取子孙节点
.	选取当前节点
. .	选取当前节点父节点
@	选取属性
contains()	属性多值匹配
text()	获取文本

Python中的Xpath

from lxml import etree

html = etree.HTML(text)  #text为爬取的网页
result = html.xpath("//div[@class='name']/li[contains(@class,'text')]/a/@href")  #一般用法，注意scrapy中的xpath还需要extract() or extract_first()提取文本，

html_2 = etree.parse('text.html', etree.HTMLParser())  #text.html为硬盘中的html文件

多属性匹配

运算符	描述
or	或
and	与
mod	除后取余
\|	计算两个节点集
+	加法
-	减法
*	乘法
div	除法
=	等于
!=	不等于
<	小于
>	大于
<=	小于等于
>=	大于等于

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

HKNMTT1994

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《Xpath笔记》 1 — 基本认识

常用规则表达式描述nodename选取此节点所有子节点/从当前节点直接选取所有子节点//从当前节点直接选取子孙节点.选取当前节点. .选取当前节点父节点@选取属性contains()属性多值匹配text()获取文本Python中的Xpathfrom lxml import etreehtml = etree...
复制链接

扫一扫