Python爬虫——解析库安装（1）

ymchuangke

已于 2024-02-14 20:30:27 修改

阅读量682

点赞数 4

分类专栏： Spider爬虫系列文章标签： python 爬虫开发语言

于 2024-02-14 18:36:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_63913621/article/details/136111777

版权

Spider爬虫系列专栏收录该内容

2 篇文章 0 订阅

订阅专栏

目录

1.lxml安装
2.Beautiful Soup安装
3.pyquery 的安装

我创建了一个社区，欢迎大家一起学习交流。社区名称：Spider学习交流

注：该系列教程已经默认用户安装了Pycharm和Anaconda，未安装的可以参考我之前的博客有将如何安装。同时默认用户掌握了Python基础语法。

抓取网页代码之后，接着是从网页中提取信息，提取信息的方式有很多，可以使用正则来提取，但是写起来相对比较烦琐。
在这用这些强大的解析库进行处理，，如 lxml、Beautiful Soup、pyquery等。

1.lxml安装

lxml是Python一个解析库，支持 HTML和XML解析，支持 XPath 解析方式，而且解析效率高。

#1.打开anaconda prompt
#2.激活前面创建的conda虚拟环境
conda activate spider
#3.输入下述代码进行安装
conda install lxml

#验证是否安装成功
#4.输入
python
#5.导入该包
import lxml

1.安装界面
在这里插入图片描述

2.验证是否成功安装
在这里插入图片描述

2.Beautiful Soup安装

Beautiful Soup是Python的HTML和XML的解析库，它拥有强大的 API和多样的解析方式。
安装方法同上。

给大家放个网址，大家可以自己查看。
Beautiful Soup 4.12.0
大家可以进去网址可以知道3已经停止开发，因此我们安装4.
大家有时间，可以学学HTML（CSS+javascript）很有帮助，主要好理解。

#1.打开anaconda prompt
#2.激活前面创建的conda虚拟环境
conda activate spider
#3.输入下述代码进行安装
conda install beautifulsoup4

#验证是否安装成功
#4.输入
python
#5.导入该包
from bs4 import BeautifulSoup 
soup = BeautifulSoup('<p>Hello World!<p/>','lxml')
print(soup.p.string)

1.安装界面
在这里插入图片描述

2.验证
在这里插入图片描述

3.pyquery 的安装

pyquery是个很强大的网页解析工具，它提供了和 jQuery 类似的语法来解析HTML 文梢，支持css 择器。

#1.打开anaconda prompt
#2.激活前面创建的conda虚拟环境
conda activate spider
#3.输入下述代码进行安装
conda install pyquery
#验证是否安装成功
#4.输入
python
#5.导入该包
import pyquery

1.安装
在这里插入图片描述
2.验证是否成功安装，如下图无报错，即成功安装

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

ymchuangke CSDN认证博客专家 CSDN认证企业博客

码龄3年

72: 原创

2864: 周排名

1万+: 总排名

14万+: 访问

: 等级

1797: 积分

5620: 粉丝

939: 获赞

85: 评论

1494: 收藏

私信

关注

热门文章

分类专栏

最新评论

数据清洗-缺失值填充-K-NN算法（K-Nearest Neighbors, K-NN算法）
djchung: 可是你的k值怎么设定呢？
问题7：ubuntu操作系统+安装cuda（傻瓜式操作）+cuda path配置+查看cuda的版本
早点发论文: 博主，请问一下，我安装的是11.3的，但是安装完成后显示9点几，这是怎么回事？
Pycharm+Anaconda+yolov5-5.0部署（手把手教+解决一些运行过程中的问题+最全部署yolov5）
lgj2022: Retrying (Retry(total=2, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ConnectionResetError(10054, '远程主机强迫关闭了一个现 , 10054, None)': /nvidia/noarch/repodata.json Retrying (Retry(total=1, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ConnectionResetError(10054, '远程主机强迫关闭了一个现有的连接。', None, 10054, None)': /nvidia/noarch/repodata.json Retrying (Retry(total=0, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ConnectionResetError(10054, '远程主机强迫关闭了一个现有的连接。', None, 10054, None)': /nvidia/noarch/repodata.json Retrying (Retry(total=2, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ConnectionResetError(10054, '远程主机强迫关闭了一个现有的连接。', None, 10054, None)': /pkgs/r/noarch/repodata.json.zst 请问这个如何解决
基础篇2：树莓派系统汉化教程（汉语+中文字体库+中文输入法pinyin（拼音））
2301_81704154: 你好博主，他应该和我一样用的都是树莓派4，我和他的问题是一样的，请问博主有解决办法吗？
jetson nano——编译安装opencv-python==4.3.0.38
ymchuangke: 已放开，希望对你有帮助！

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

ymchuangke 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。