Xpath简介及用法整理

最新推荐文章于 2024-09-25 16:51:14 发布

等我想个好名字

最新推荐文章于 2024-09-25 16:51:14 发布

阅读量4.1k

点赞数 1

本文链接：https://blog.csdn.net/Nikki0126/article/details/90752678

版权

本文介绍了XPath的基本概念和在XML/HTML文档中查找信息的作用，讲解了如何在Python中安装和使用lxml库来处理XPath。通过实例展示了XPath如何高效地定位网页元素，对比了XPath与正则表达式的差异。此外，文章还探讨了XPath的特殊用法，如处理特定开头的属性和嵌套标签，并提到了Python并行化在爬虫中的应用，最后给出了一个具体的百度贴吧爬虫实战案例。

摘要由CSDN通过智能技术生成

一、XPath的介绍与配置
1 XPath是什么？
XPath，即XML路径语言（XML Path Language），它是一门在XML文档中查找信息的语言。它最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索。所以在做爬虫时，我们完全可以使用XPath来做相应的信息抽取

简言之，XPath是一门语言，可以在XML文档中查找信息，支持HTML，通过元素和属性进行导航；

XPath用以提取信息，类似于正则表达式，但比正则表达式厉害、简单，因为使用正则表达式时即使是正确的，却也没法获取需要的信息，或网页原代码结构复杂，不知道如何使用正则表达式进行匹配。

2 安装lxml库
方法1：使用easyinstall

方法2：使用pip install lxml

方法3；https://pypi.python.org/pypi，搜索lxml，选择lxml 3.5.0 package，显示最新版本是3.6.0，点击进入，根据自己安装Python版本、计算机32位/64位，选择以.whl为扩展名的lxml File——lxml-3.6.0-cp27-none-win_amd64.whl (md5)进行下载，将文件扩展名修改成.zip，打开并把压缩文件的中的lxml文件夹放置在安装Python目录下的Lib文件夹中

3 使用lxml库

from lxml import etree # 导入etree
 
Selector=etree.HTML(网页源代码) # 转化成被xpath识别和匹配的对象，并赋值给Selector变量
 
Selector.xpath(一段神奇的符号) # 提取感兴趣的内容

二、XPath的使用

先导问题：想要找到极客学院的办公大楼

使用正则表达式：寻找的大楼左边有一个三角形的建筑，右边有一个圆形建筑，而中国很大，需要很多时间才能找到；

使用XPath：寻找的大楼在北京市海淀区某某路某某号；

1 XPath与HTML结构
HTML是树状结构，可逐层展开，利用该特点可逐层定位，在逐层定位的基础上寻找独立节点。

举例：

打开一个网站：
在这里插入图片描述

查看器源代码：

<!DOCTYPE html>
<html>
<head lang="en">
    <meta charset="UTF-8">
    <title>测试-常规用法</title>
</head>
<body>
<div id="content">
    <ul id="useful">
        <li>这是第一条信息</li>
        <li>这是第二条信息</li>
        <li>这是第三条信息</li>
    </ul>
    <ul id="useless">
        <li>不需要的信息1</li>
        <li>不需要的信息2</li>
        <li>不需要的信息3</li>
    </ul>
 
    <div id="url">
        <a href="http://jikexueyuan.com">极客学院</a>
        <a href="http://jikexueyuan.com/course/" title="极客学院课程库">点我打开课程库</a>
    </div>
</div>
 
</body>
</html>

使用正则表达式匹配时，使用先抓大后抓小原则，先匹配ul标签，在匹配的结果中再匹配li标签，需要使用多行代码才能实现；

使用XPath匹配时，只需要一行代码即可实现：

2 获取网页元素的XPath
2.1 手动分析法

html -> body -> div -> ul[@useful] -> li

2.2 Chrome生成法

右击页面点击审核元素 -> 对想要的信息的一行（“这是第一条信息”）右击点击Copy Xpath -> 粘贴到记事本，内容是//*[@id=“useless”]/li[1]

其中，id="useless"对应标签

；又因为整个源代码只有一处id=“useful”，因此只是用id即可，不用指定标签，使用*代替；li[1]只代表第一条信息，若想要所有信息，需要li，则以列表形式返回；//表示从什么地方开始，

3 应用Xpath提取内容
//定位根节点

/往下层寻找

/text()提取文本内容

/@XXX提取XXX属性内容

#-*-coding:utf8-*-
import lxml
from lxml import etree
html = '''
<!DOCTYPE html>
<html>
<head lang="en">
    <meta charset="UTF-8">
    <title&

最低0.47元/天解锁文章

等我想个好名字

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫