Python3 爬虫教程 - 新兴网页解析利器 parsel

最新推荐文章于 2024-08-02 10:29:40 发布

piflf

最新推荐文章于 2024-08-02 10:29:40 发布

阅读量2k

点赞数

文章标签：爬虫 python html

本文链接：https://blog.csdn.net/piflf/article/details/125059881

版权

1. 介绍parsel 这个库可以对 HTML 和 XML 进行解析，并支持使用 XPath 和 CSS Selector 对内容进行提取和修改，同时它还融合了正则表达式提取的功能。功能灵活而又强大，同时它也是 Python 最流行爬虫框架 Scrapy 的底层支持。2. 准备工作在本节开始之前，请确保已经安装好了 parsel 库，如尚未安装，可以使用 pip3 进行安装即可：pip3 install parsel3. 初始化首先我们还是用上一节的示例 HTML，声明 html 变量如下：

摘要由CSDN通过智能技术生成

1. 介绍

parsel 这个库可以对 HTML 和 XML 进行解析，并支持使用 XPath 和 CSS Selector 对内容进行提取和修改，同时它还融合了正则表达式提取的功能。功能灵活而又强大，同时它也是 Python 最流行爬虫框架 Scrapy 的底层支持。

2. 准备工作

在本节开始之前，请确保已经安装好了 parsel 库，如尚未安装，可以使用 pip3 进行安装即可：

pip3 install parsel

3. 初始化

首先我们还是用上一节的示例 HTML，声明 html 变量如下：

html = '''
<div>
    <ul>
         <li class="item-0">first item</li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
         <li class="item-1 active"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
     </ul>
 </div>
'''

接着，一般我们会用 parsel 的 Selector 这个类来声明一个 Selector 对象，写法如下：

from parsel import Selector
selector = Selector(text=html)

这里我们创建了一个 Selector 对象，传入了 text 参数，内容就是刚才声明的 HTML 字符串，赋值为 selector 变量。

有了 Selector 对象之后，我们可以使用 css 和 xpath 方法分别传入 CSS Selector 和 XPath 进行内容的提取，比如这里我们提取 class 包含 item-0 的节点，写法如下：

items = selector.css('.item-0')
print(len(items), type(items<

最低0.47元/天解锁文章

piflf

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Python3 爬虫教程 - 新兴网页解析利器 parsel

1. 介绍parsel 这个库可以对 HTML 和 XML 进行解析，并支持使用 XPath 和 CSS Selector 对内容进行提取和修改，同时它还融合了正则表达式提取的功能。功能灵活而又强大，同时它也是 Python 最流行爬虫框架 Scrapy 的底层支持。2. 准备工作在本节开始之前，请确保已经安装好了 parsel 库，如尚未安装，可以使用 pip3 进行安装即可：pip3 install parsel3. 初始化首先我们还是用上一节的示例 HTML，声明 html 变量如下：
复制链接

扫一扫