Xpath简介及用法整理

一、XPath的介绍与配置
1 XPath是什么?
XPath,即XML路径语言(XML Path Language),它是一门在XML文档中查找信息的语言。它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索。所以在做爬虫时,我们完全可以使用XPath来做相应的信息抽取

简言之,XPath是一门语言,可以在XML文档中查找信息,支持HTML,通过元素和属性进行导航;

XPath用以提取信息,类似于正则表达式,但比正则表达式厉害、简单,因为使用正则表达式时即使是正确的,却也没法获取需要的信息,或网页原代码结构复杂,不知道如何使用正则表达式进行匹配。

2 安装lxml库
方法1:使用easyinstall

方法2:使用pip install lxml

方法3;https://pypi.python.org/pypi,搜索lxml,选择lxml 3.5.0 package,显示最新版本是3.6.0,点击进入,根据自己安装Python版本、计算机32位/64位,选择以.whl为扩展名的lxml File——lxml-3.6.0-cp27-none-win_amd64.whl (md5)进行下载,将文件扩展名修改成.zip,打开并把压缩文件的中的lxml文件夹放置在安装Python目录下的Lib文件夹中

3 使用lxml库

from lxml import etree # 导入etree
 
Selector=etree.HTML(网页源代码) # 转化成被xpath识别和匹配的对象,并赋值给Selector变量
 
Selector.xpath(一段神奇的符号) # 提取感兴趣的内容

二、XPath的使用

先导问题:想要找到极客学院的办公大楼

使用正则表达式:寻找的大楼左边有一个三角形的建筑,右边有一个圆形建筑,而中国很大,需要很多时间才能找到;

使用XPath:寻找的大楼在北京市海淀区某某路某某号;

1 XPath与HTML结构
HTML是树状结构,可逐层展开, 利用该特点可逐层定位,在逐层定位的基础上寻找独立节点。

举例:

打开一个网站:
在这里插入图片描述

查看器源代码:

<!DOCTYPE html>
<html>
<head lang="en">
    <meta charset="UTF-8">
    <title>测试-常规用法</title>
</head>
<body>
<div id="content">
    <ul id="useful">
        <li>这是第一条信息</li>
        <li>这是第二条信息</li>
        <li>这是第三条信息</li>
    </ul>
    <ul id="useless">
        <li>不需要的信息1</li>
        <li>不需要的信息2</li>
        <li>不需要的信息3</li>
    </ul>
 
    <div id="url">
        <a href="http://jikexueyuan.com">极客学院</a>
        <a href="http://jikexueyuan.com/course/" title="极客学院课程库">点我打开课程库</a>
    </div>
</div>
 
</body>
</html>

使用正则表达式匹配时,使用先抓大后抓小原则,先匹配ul标签,在匹配的结果中再匹配li标签,需要使用多行代码才能实现;

使用XPath匹配时,只需要一行代码即可实现:

2 获取网页元素的XPath
2.1 手动分析法

html -> body -> div -> ul[@useful] -> li

2.2 Chrome生成法

右击页面点击审核元素 -> 对想要的信息的一行(“这是第一条信息”)右击点击Copy Xpath -> 粘贴到记事本,内容是//*[@id=“useless”]/li[1]

其中,id="useless"对应标签

  • ;又因为整个源代码只有一处id=“useful”,因此只是用id即可,不用指定标签,使用*代替;li[1]只代表第一条信息,若想要所有信息,需要li,则以列表形式返回;//表示从什么地方开始,

3 应用Xpath提取内容
//定位根节点

/往下层寻找

/text()提取文本内容

/@XXX提取XXX属性内容

#-*-coding:utf8-*-
import lxml
from lxml import etree
html = '''
<!DOCTYPE html>
<html>
<head lang="en">
    <meta charset="UTF-8">
    <title>测试-常规用法</title
  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在Python中安装XPath可以使用lxml库。您可以使用以下命令来安装lxml库: pip install lxml 安装完成后,您可以使用lxml库的etree模块来解析和查询XPath表达式。以下是一个使用lxml库进行XPath查询的示例: import requests from lxml import etree # 获取网页内容 response = requests.get('https://example.com') html = response.text # 解析网页内容 tree = etree.HTML(html) # 使用XPath查询 result = tree.xpath('//title/text()') print(result) 在上述示例中,我们首先使用requests库获取了网页的内容,然后使用lxml库的etree模块将网页内容解析为一个树形结构。接下来,我们使用tree.xpath方法来执行XPath查询,其中'//title/text()'是一个XPath表达式,表示查询网页中的所有title标签的文本内容。最后,我们将查询结果打印出来。 希望这能帮助到您安装和使用Python中的XPath。如果还有其他问题,请随时提问。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [【Python爬虫历程】XPATH的介绍以及XPATH插件的安装](https://blog.csdn.net/qq_27524749/article/details/105439871)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* [花了半天时间整理xpath最详细的全面教程!拿去用吧](https://blog.csdn.net/weixin_43881394/article/details/108950021)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值