022.（RDC暑假学习期 7.13-7.14）认识XPath

最新推荐文章于 2020-09-27 23:47:51 发布

ORonaldinhoO

最新推荐文章于 2020-09-27 23:47:51 发布

阅读量163

点赞数

本文链接：https://blog.csdn.net/u013598957/article/details/107319594

版权

本文介绍了XPath作为XML和HTML文档信息查找语言的基础知识，包括常用规则、实例、节点选择、文本和属性获取、多值匹配以及XPath与正则表达式的区别。通过学习XPath，可以更高效地进行网页信息抽取。

摘要由CSDN通过智能技术生成

参考书籍：《Python 3网络爬虫开发实战》

认识XPath

6月6号早晨突然收到考核结果通过的通知，惊喜成为RDC大数据组的一员。两个月的思考与突破，是疫情在家学习时光的难忘记忆之一。从进度条的%5到接近所有任务要求的%90，一路下来，也靠行动，靠意志。

考试月让工作室的日子暂告一段落。考试结束后的今天，将迎来RDC暑假学习期（小小996）。之前师兄师姐也提到过，大数据从业方向主要有算法和开发两者。暑假的学习主要在于前者，希望通过这1个月多的学习，自己既能更加确定自己的兴趣和方向，也能尽快提升团队合作能力，多多出力锻炼。

今天，简单回顾之前的爬虫基础后，便开始XPath¹的学习。

介绍

之前自己实现的爬虫提取页面信息时，基本使用正则表达式，这还是比较
烦琐，而且万一有地方写错了，可能导致匹配失败，所以使用正则表达式提取页面信息、多多少少还有些不方便。

对于网页的节点（tag）来说，它可以定义 id，class 或其他属性，而且节点之间还有层次关系，在网页中可以通过 XPath，CSS选择器来定位一个或多个节点那么，在页面解析时，利用 XPath，CSS选择器来提取某个节点，然后再调用相应方法获取它的正文内容或者属性，就可以提取我们想要的任意信息。

XPath 全称 XML Path Language ，即XML 路径语言，它是一门在 XML 文档中查找信息的语言。它最初是用来搜寻 XML 文档的，但是它同样适用于 HTML 文档²的搜索。所以在做爬虫时，我们完全可以使用 XPath 来做相应的信息抽取。

而常见的解析库包括 lxml（一种使用 Python 编写的库，可以迅速、灵活地处理 XML 和 HTML，还可以用于web爬取），Beautiful Soup，pyquery 等。

常用规则

在这里插入图片描述

实例引入

from lxml import etree
# 导入 lxml 库的 etree 模块
# 然后声明一段 HTML 文本，调用 HTML类进行初始化，成功构造一个 XPath解析对象。

text = '''
<div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
</ul>
</div>
'''

html = etree.HTML(text)
result = etree.tostring(html) 
print(result.decode('utf-8'))

# HTML 文本中最后一个 li 节点没有闭合，但是 etree 模块可以自动修正 HTML 文本。
# 调用 tostring() 方法即可输出修正后的 HTML 代码，但结果是 bytes 类型
# 可以用 decode() 方法将其转化为 str 类型

# 结果如下：
<html><body><div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class

最低0.47元/天解锁文章

ORonaldinhoO

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
022.（RDC暑假学习期 7.13-7.14）认识XPath

认识XPath介绍二级目录三级目录6月6号早晨突然收到考核结果通过的通知，惊喜成为RDC大数据组的一员。两个月的思考与突破，是疫情在家学习时光的难忘记忆之一。从进度条的%5到接近所有任务要求的%90，一路下来，也靠行动，靠意志。考试月让工作室的日子暂告一段落。考试结束后的今天，将迎来RDC暑假学习期（小小996）。之前师兄师姐也提到过，大数据从业方向主要有算法和开发两者。暑假的学习主要在于前者，希望通过这1个月多的学习，自己既能更加确定自己的兴趣和方向，也能尽快提升团队合作能力，多多出力锻炼。今天，简
复制链接

扫一扫