【Python3 爬虫学习笔记】解析库的安装

最新推荐文章于 2024-02-16 11:01:36 发布

htsait4113

最新推荐文章于 2024-02-16 11:01:36 发布

阅读量223

点赞数

分类专栏：学习笔记

学习笔记专栏收录该内容

82 篇文章 2 订阅

订阅专栏

抓取网页代码之后，下一步就是从页面中提取信息。提取信息的方式多种多样，可以使用正则来提取，但是写起来相对比较繁琐。还有许多强大的解析库，如lxml、Beautiful Soup、pyquery等。此外还提供了非常强大的解析方法，如XPath解析和CSS选择器解析等，利用它们，我们可以高效便捷地从网页中提取有效信息。

一、lxml的安装

lxml是Python的一个解析库，支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高。
1.相关链接

2.安装

pip3 install lxml

二、Beautiful Soup的安装

Beautiful Soup是Python的一个HTML或XML的解析库，我们可以用它来方便地从网页中提取数据。Beautiful Soup的HTML和XML解析器是依赖lxml库的，所以在此之前要确保已经成功安装lxml库。
pip安装

pip3 install beautifulsoup4

三、pyquery的安装

pyquery同样是一个强大的网页解析工具，它提供了和jQuery类似的语法来解析HTML文档，支持CSS选择器，使用非常方便。
pip安装

pip3 install pyquery

四、tesserocr的安装

在爬虫过程中，难免会遇到各种各样的验证码，而大多数验证码还是图形验证码，这时候我们可以直接用OCR来识别。

安装
在Windows下，首先需要下载tesseract，下载地址为：http://digi.bib.uni-mannheim.de/tesseract。
下载完成后双击，勾选Addition language data选项来安装OCR识别支持的语言包，这样OCR边可以识别多国语言。
接下来，再安装tesserocr，使用pip安装：

pip3 install tesserocr pillow

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Python3 爬虫学习笔记】解析库的安装

抓取网页代码之后，下一步就是从页面中提取信息。提取信息的方式多种多样，可以使用正则来提取，但是写起来相对比较繁琐。还有许多强大的解析库，如lxml、Beautiful Soup、pyquery等。此外还提供了非常强大的解析方法，如XPath解析和CSS选择器解析等，利用它们，我们可以高效便捷地从网页中提取有效信息。一、lxml的安装lxml是Python的一个解析库，支持HTML和XM...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。