Python爬虫中的xpath的简单用法（小例子）

最新推荐文章于 2024-04-07 08:00:00 发布

yuanlairuci444

最新推荐文章于 2024-04-07 08:00:00 发布

阅读量1.1k

点赞数

分类专栏： Python 文章标签： Python爬虫 xpath

本文链接：https://blog.csdn.net/weixin_41588525/article/details/89927728

版权

Python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Python爬虫中的xpath的简单用法（小例子）

简介

首先，XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。
XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型查询语言。
这次使用在Python爬虫领域。
如何得到
首先用pip安装lxml,以及requests：
pip install lxml
pip install requests
其次，在想要浏览的网页中，用F12查找元素（刷新），右击查找想要的某一区域并复制它的xpath
使用例子

import requests
from lxml import etree
import lxml
url="http://landing.zhaopin.com/register?utm_source=baidupcpz&utm_medium=cpt&utm_provider=partner&sid=121113803&site=null"

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.91 Safari/537.36"} #添加浏览器头
#你需要爬取的网页
html=requests.get(url,headers=headers)
html.encoding="utf-8"
#print(html.text)
html=etree.HTML(html.content, parser=etree.HTMLParser(encoding='utf-8'))               #etree.HTML():构造了一个XPath解析对象并对HTML文本进行自动修正。
#print(etree.tostring(html, encoding="utf-8").decode("utf-8"))
#将你的xpath复制到三引号里面，因为xpath里可能有双引号，所以我们加上三引号比较靠谱
s=html.xpath('''//*[@id="root"]/div[1]/div[1]/div/div/span[1]/span/text()''')
print (s)		#一定要注意此种情况是未登录，即不需要cookies的情况，如果需要登陆则另说。