Python网络爬虫与信息提取（三）bs4入门

最新推荐文章于 2024-05-04 05:02:11 发布

zield

最新推荐文章于 2024-05-04 05:02:11 发布

阅读量488

点赞数 1

文章标签： Python WebCrawler

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Abgler/article/details/80149517

版权

Python的requests库可以帮助我们获取到大量的信息，而如果想对这些信息进行提取与分析，则经常使用beautifulsoup这个用来解析HTML和XML格式的功能库。

beautifulsoup库的安装和requests的流方法一样，可直接在cmd中输入pip install beautifulsoup4来安装，安装完成后可直接在IDLE中输入import bs4来验证是否安装成功。

接下来我们以python123.io中一个专为bs4库设计的网页为例来体验下bs4库的基础操作。

其中prettify()方法可以在各节点之间加入换行符已使打印出来的解析文本可读性更高：

可以看到，想使用bs4来解析网页信息时，我们需要将待解析的网页的html信息传入BeautifulSoup这个类中，再将我们想使用的解析器作为第二个参数传入类中，然后我们可以通过prettify这个方法来将解析后的网页打印出来。

bs4中除了可以使用html.parser这个解析器之外，还可以使用lxml的HTML与XML解析器以及html5lib的解析器，使用之前只需安装对应的解析器的库即可。

由此可见BeautifulSoup的主要用途是对HTML和XML的“标签树”进行解析、遍历和维护，只要给它提供的文本为标签类型，它都能对其进行解析，可以简单的将BeautifulS

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python网络爬虫与信息提取（三）bs4入门

Python的requests库可以帮助我们获取到大量的信息，而如果想对这些信息进行提取与分析，则经常使用beautifulsoup这个用来解析HTML和XML格式的功能库。 beautifulsoup库的安装和requests的流方法一样，可直接在cmd中输入pip install beautifulsoup4来安装，安装完成后可直接在IDLE中输入import bs4来验证是否安装成功。...
复制链接

扫一扫

zield CSDN认证博客专家 CSDN认证企业博客

码龄6年

8: 原创

42万+: 周排名

36万+: 总排名

1万+: 访问

: 等级

268: 积分

8: 粉丝

7: 获赞

1: 评论

33: 收藏

私信

关注

分类专栏

Python

最新评论

Python网络爬虫与信息提取（七）re库的基本方法
CSDN-Ada助手: 非常感谢您的分享，这篇博客对Python网络爬虫和信息提取的re库基本方法有了更深入的了解。我觉得下一篇博客可以探讨如何使用re库进行高级匹配和替换操作，这样的技术文章对其他用户也会非常有帮助。相信会有更多读者期待您的下一篇博客！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。