Python爬虫：通过爬取CSDN博客信息，学习lxml库与XPath语法_利用lxml库将网页内容解析为dom树,然后使用xpath语法查找网页元素,爬取搜狗搜索ht-CSDN博客

本文链接：https://blog.csdn.net/liyuanjinglyj/article/details/118860417

本文介绍了Python的lxml库用于解析XML和HTML，详细讲解了lxml的基本用法、XPath语法，并通过实例展示了XPath在爬取CSDN博客信息中的应用，包括选取节点、属性匹配等。

在这里插入图片描述

lxml库

lxml是Python的一个解析库，专门用于解析XML与HTML，支持XPath解析方式。由于lxml库的底层是使用C语言编写的，所以其解析效率非常的高。

在我们后面讲解使用该库之前，我们需要安装该库。一般通过如下命令进行安装即可，代码如下：

pip install lxml

lxml基本用法

既然，lxml库支持解析XML以及HTML，那么肯定就需要学会这2种文档的解析方式。下面，我们来分别讲解。

解析XML文件

首先，我们需要使用lxml库解析XML文件，这里XML文件其实有很多种类，这里博主随便定义一个XML进行解析。

XML代码如下：

<?xml version="1.0" encoding="utf-8"?>
<people>
    <zhangsan class="法外狂徒">
        <sex>男</sex>
        <age>21</age>
    </zhangsan>
    <lisi class="法外狂徒的伙伴">
        <sex>男</sex>
        <age>21</age>
    </lisi>
</people>

解析示例代码如下所示：

from lxml import etree

tree = etree.parse("lxml_xml.xml")
print(str(etree.tostring(tree, encoding='utf-8'), 'utf-8'))
root = tree.getroot()
print("根节点", root.tag)
children = root.getchildren()
for child in children:
    print("sex：", child[0].text)
    print("class :", child.get('class'))