XPath 的安装以及使用
1 . XPath 的介绍
刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用 XPath
,有人表示这太坑爹了,早知道刚上来就学习 XPath
多省事 啊。其实我个人认为学习一下正则表达式是大有益处的,之所以换成 XPath
,我个人认为是因为它定位更准确,使用更加便捷。
可能有的人对 XPath
和正则表达式的区别不太清楚,举个例子来说吧,用正则表达式提取我们的内容,就好比说一个人想去天安门,地址的描述是左边有一个圆形建筑,右边是一个方形建筑,你去找吧,而使用 XPath
的话,地址的描述就变成了天安门的具体地址。怎么样?相比之下,哪种方式效率更高,找的更准确呢?
2 . XPath
的安装
XPath
包含在 lxml
库中,那么我们到哪里去下载呢? 点击此处 ,进入网页后按住 ctrl+f
搜索 lxml
,然后进行下载,下载完毕之后将文件拓展名改为 .zip
,然后进行解压,将名为 lxml
的文件夹复制粘贴到 Python
的 Lib
目录下,这样就安装完毕了。
3 . XPath 的使用
为了方便演示,我利用 Html
写了个简单的网页,代码如下所示(为了节省时间,方便小伙伴们直接进行测试,可直接复制粘贴我的代码)
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Test Html</title>
</head>
<body>
<div id="content">
<ul id="like">
<li>like one</li>
<li>like two</li>
<li>like three</li>
</ul>
<ul id="hate">
<li>hate one</li>
<li>hate two</li>
<li>hate three</li>
</ul>
<div id="url">
<a href="http://www.baidu.com">百度一下</a>
<a href="http://www.hao123.com">好123</a>
</div>
</div>
</body>
</html>
用谷歌浏览器打开这个网页,然后右击,选择检查,会出现如下所示界面