xpath使用

最新推荐文章于 2022-04-12 16:07:10 发布

linuxvfast

最新推荐文章于 2022-04-12 16:07:10 发布

阅读量252

点赞数

分类专栏：日常记录 python 文章标签： xpath 爬虫

本文链接：https://blog.csdn.net/linuxvfast/article/details/116904963

版权

这篇博客介绍了XPath的基础语法，包括创建HTML文档、选取不同类型的元素和属性。详细讲解了如何获取根路径、选取特定标签、获取文本内容以及利用XPath函数进行更复杂的筛选，如选取含有特定属性的节点。此外，还探讨了XPath的常用函数，如string()、contains()等，以及各种轴（child、ancestor等）的概念，帮助读者深入理解XPath在网页解析和爬虫中的应用。

摘要由CSDN通过智能技术生成

帮助文档
https://www.w3.org/TR/xpath/

基础语法

表达式	描述
/	选中文档的根
.(点)	选中当前节点
…(点点)	选中当前节点的父节点
ELEMENT	选中子节点中所有ELEMENT元素节点
//ELEMENT	选中后代节点中所有ELEMENT元素节点
*	选中所有元素子节点
text()	选中所有文本子节点
@ATTR	选中名为ATTR的属性节点
@*	选中所有属性节点

创建html文档

from scrapy.selector import Selector
from scrapy.http import HtmlResponse

body='''
<html>
	<head>
		<base href='http://example.com/'>
		<title>Example website</site>
	</head>
	<body>
		<div id='images'>
			<a href='image1.html'>Name:Image 1 <br/><img src='image1.jpg' /></a>
			<a href='image2.html'>Name:Image 2 <br/><img src='image2.jpg' /></a>
			<a href='image3.html'>Name:Image 3 <br/><img src='image3.jpg' /></a>
			<a href='image4.html'>Name:Image 4 <br/><img src='image4.jpg' /></a>
			<a href='image5.html'>Name:Image 5 <br/><img src='image5.jpg' /></a>
		</div>
	</body>
</html>
'''

response = HtmlResponse(url='http://www.example.com',body=body,encoding='utf8')

获取根路径

print(response.xpath('/html'))
[<Selector xpath='/html' data='<html>\n\t<head>\n\t\t<base href="http://e...'>]

print(response.xpath('/html/head'))
[<Selector xpath='/html/head' data='<head>\n\t\t<base href="http://example.c...'>]

获取div下的所有a标签

print(response.xpath('/html/body/div/a'))
[<Selector xpath='/html/body/div/a' data='<a href="image1.html">Name:Image 1 <b...'>, 
<Selector xpath='/html/body/div/a' data='<a href="image2.html">Name:Image 2 <b...'>,
<Selector xpath='/html/body/div/a' data='<a href="image3.html">Name:Image 3 <b...'>, 
<Selector xpath