Python3爬虫从零开始：库的安装

最新推荐文章于 2024-04-27 00:18:29 发布

ChaosLee_

最新推荐文章于 2024-04-27 00:18:29 发布

阅读量400

点赞数 1

分类专栏： Python3 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_26736193/article/details/83046833

版权

爬虫同时被 2 个专栏收录

8 篇文章 1 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

抓取网页之后下一步就是从网页中提取信息。提取方式有很多种，可以利用正则表达式进行提请，但是相对而言比较麻烦繁琐。现在有很多强大的解析库供我们使用，如lxml,Beautiful Soupp,pyquery等。本节对其安装进行介绍。

lxml的安装

lxml支持HTML和XML的解析，支持XPath解析方式。

在Windos下直接利用pip安装，执行命令行命令：

   pip3 install lxml

Beautiful Soup的安装

Beautiful Suop是Python的一个HTML或XML的解析库，我们可以用它来方便地从网页中提取数据。它的HTML和XML解析器是依赖于lxml库的，所以在此之前需要确保已经成功安装好了lxml库。

依旧是pip安装：

pip3 install beautifulsoup4

pyquery的安装

pyquery提供了和jQuery类似的语法来解析HTML文档，支持CSS选择器。

pip3 install pyquery

tesserocr的安装

爬虫过程中难免遇到各种各样的验证码，而大多数验证码还是图形验证码，这时候可以用OCR（Optical Character Recognition）来识别。

tesserocr是Python的一个OCR识别库，但其实是对tesseract坐的一层Python API封装，所以它的核心是tesseract。因此，在此之前需要安装tesseract。

tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/

文件名中带dev的为开发版本，不带的为稳定版本。这里我下载了不带dev的3.05版本。

下载好后勾选上Additional language data(download)选项来安装OCR识别语言的支持包。其他的一路Next就OK。

最后，安装tesserocr即可：

pip3 install tesserocr pillow

安装好的各种库，最后在python目录下\Lib\site-packages中可以查看到。

Mysql的安装

这里安装Mysql参照教程：https://blog.csdn.net/qq_37350706/article/details/81707862

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

ChaosLee_ CSDN认证博客专家 CSDN认证企业博客

码龄10年

15: 原创

14万+: 周排名

204万+: 总排名

3万+: 访问

: 等级

486: 积分

16: 粉丝

32: 获赞

6: 评论

106: 收藏

私信

关注

热门文章

分类专栏

Z3求解器 1篇
KLEE 5篇
CPAChecker 1篇
DOCKER 1篇
爬虫 8篇
Python3 7篇
CSS3

最新评论

KLEE学习——实例1
qq_40891511: 我也找不到这个文件夹，兄弟最后怎么解决的呢
KLEE学习——实例1
ChaosLee_: 可以看下我安装的那个内容。
KLEE学习——实例1
ChaosLee_: 抱歉，刚注意这个问题。因为我也只当时用了一下，所以没有遇到，不能帮助您解决问题了。
KLEE学习——实例1
anidhS: 为什么我下载好klee以后在文件里面找不到klee-build
KLEE学习——实例1
卷福不爱吃卷饼: 博主您好，我在用klee的过程中发现一个问题，如果我的程序中存在sin、cos这样的三角函数时，klee会报错，而且给的用例不能覆盖所有的路径，这个问题您又解决方法吗？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。