Python爬虫之BeautifulSoup库函数解析

最新推荐文章于 2024-08-30 10:01:19 发布

qq_31258245

最新推荐文章于 2024-08-30 10:01:19 发布

阅读量3.6k

点赞数

分类专栏：爬虫 python 文章标签： python 爬虫 bs4

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_31258245/article/details/78660748

版权

本文介绍了Python的BeautifulSoup库，用于HTML和XML解析。主要内容包括库的安装、基本使用方法，如解析文档、获取文本、查找元素等。还强调了在编写爬虫时，为确保稳定性，应尽量具体指定标签属性，并指出BeautifulSoup支持使用正则表达式和自定义函数进行筛选。同时提到，若BeautifulSoup不满足需求，还有lxml和HTML parser等替代选项。

摘要由CSDN通过智能技术生成

Python爬虫之BeautifulSoup库函数解析

简介

Beautiful Soup 是用Python写的一个HTML/XML的解析器，它可以很好的处理不规范标记并生成剖析树(parse tree)。它提供简单又常用的导航（navigating），搜索以及修改剖析树的操作。它可以大大节省你的编程时间。

安装

安装Python的包管理器pip，然后执行以下命令

pip install beautifulsoup4

使用

在代码中用到BeautifulSoup时需要引入，引入方式如下

from bs4 import BeautifulSoup

基本用途

将html文档解析成文档树，返回bs对象
通过get_text()函数返回文档除链接、标签、段落外的文本内容
find函数和findAll函数通过标签和属性过滤html页面，标签可以多个，属性是字典类型，自然可以多值
3中的两个函数当通过keyword参数过滤时，如果key为class，则需写为class_=“green”
bs对象可以直接调用子标签来返回，但这种方式灵活性不大，当页面

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。