最近在用scrapy爬取数据,每次写一堆xpath语法,然后运行爬虫时由于xpath语法错误、或者逻辑错误亦或者节点不精准多做很多工作,于是想查查看有没有简易的xpath节点测试工具或方法:
网上有xpath在线测试小工具,但这种在线测试网页在测试网页文本较大时测试匹配不出来,另外测试时匹配给的是匹配节点的子节点,要测试匹配节点属性选取时用不上。
还有不少第三方小工具下载,小小测试再装个小程序不合我意。
查了下python xpath,找到了lxml,里面的etree方法用来测试xpath语法最好不过了。
方法如下:
安装lxml模块:
pip3 install lxml
from lxml import etree
html="""
目标网页右键查看网页源代码,全复制粘贴到这
"""
selector = etree.HTML(html)
content1 = selector.xpath('xpath语句1')
print(content1)
content2 = selector.xpath('xpath语句2')
语法如:
content1=selector.xpath('//div[@class="dt-info"]/h1/text()')
print(conten1)
content2=selector.xpath('//ul[contain