网络爬虫--11.XPath和lxml

最新推荐文章于 2023-08-14 12:59:54 发布

阿Q咚咚咚

最新推荐文章于 2023-08-14 12:59:54 发布

阅读量233

点赞数 1

分类专栏：网络爬虫

本文链接：https://blog.csdn.net/fanxindong0620/article/details/105823822

版权

本文介绍了XPath作为HTML和XML文档处理工具的优势，并详细讲解了XPath的基本概念，包括选取节点、谓语、通配符等。同时，文章介绍了Python中的lxml库，展示了如何使用lxml结合XPath进行网页解析和信息提取。文中给出了多个实例，演示了XPath在Python爬虫中的实际应用。

摘要由CSDN通过智能技术生成

一. XML

有人说，我正则用的不好，处理HTML文档很累，有没有其他的方法？

有！那就是XPath，我们可以先将 HTML文件转换成 XML文档，然后用 XPath 查找 HTML 节点或元素。

XML 指可扩展标记语言（EXtensible Markup Language）
XML 是一种标记语言，很类似 HTML
XML 的设计宗旨是传输数据，而非显示数据
XML 的标签需要我们自行定义。
XML 被设计为具有自我描述性。
XML 是 W3C 的推荐标准

W3School官方文档：http://www.w3school.com.cn/xml/index.asp

1. XML 和 HTML 的区别

在这里插入图片描述

2. XML文档示例

<?xml version="1.0" encoding="utf-8"?>

<bookstore>

  <book category="cooking">
    <title lang="en">Everyday Italian</title>  
    <author>Giada De Laurentiis</author>  
    <year>2005</year>  
    <price>30.00</price>
  </book>  

  <book category="children">
    <title lang="en">Harry Potter</title>  
    <author>J K. Rowling</author>  
    <year>2005</year>  
    <price>29.99</price>
  </book>  

  <book category="web">
    <title lang="en">XQuery Kick Start</title>  
    <author>James McGovern</author>  
    <author>Per Bothner</author>  
    <author>Kurt Cagle</author>  
    <author>James Linn</author>  
    <author>Vaidyanathan Nagarajan</author>  
    <year>2003</year>  
    <price>49.99</price>
  </book>

  <book category="web" cover="paperback">
    <title lang="en">Learning XML</title>  
    <author>Erik T. Ray</author>  
    <year>2003</year>  
    <price>39.95</price>
  </book>

</bookstore>

3. HTML DOM 模型示例

HTML DOM 定义了访问和操作 HTML 文档的标准方法，以树结构方式表达 HTML 文档。
在这里插入图片描述

4. XML的节点关系

下面一个简单的XML例子中：

<?xml version="1.0" encoding="utf-8"?>

<bookstore>

	<book>
	  <title>Harry Potter</title>
	  <author>J K. Rowling</author>
	  <year>2005</year>
	  <price>29.99</price>

最低0.47元/天解锁文章

阿Q咚咚咚

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫--11.XPath和lxml

文章目录一. XML1. XML 和 HTML 的区别2. XML文档示例3. HTML DOM 模型示例4. XML的节点关系二. 什么是XPath？1. 选取节点2. 谓语（Predicates）3. 小标题4. 小标题5. 小标题三. lxml库四. 标题五. 标题1. 小标题2. 小标题3. 小标题1). 小标题2). 小标题3). 小标题一. XML有人说，我正则用的不好，处理HTM...
复制链接

扫一扫