Python3中BeautifulSoup解析html常用函数

最新推荐文章于 2024-01-23 11:04:18 发布

Python 学习者

最新推荐文章于 2024-01-23 11:04:18 发布

阅读量1.2k

点赞数

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_38682860/article/details/90646871

版权

python 专栏收录该内容

1472 篇文章 280 订阅

订阅专栏

1，初始化：

soup = BeautifulSoup(html)# html为html源代码字符串，type(html) == str

2，用tag获取相应代码块的剖析树：

contents属性是一个列表，里面保存了该剖析树的直接儿子，如：

3，用contents[], parent, nextSibling, previousSibling寻找父子兄弟tag:

　 beautifulSoup提供了几个简单的方法直接获取当前tag块的父子兄弟。

　假设我们已经获得了body这个tag块，我们想要寻找<html>, <head>, 第一个<p>, 第二个<p>这四个tag块：

4，用find, findParent, findNextSibling, findPreviousSibling寻找祖先或者子孙 tag：

　 find方法（我理解和findChild是一样的），就是以当前节点为起始，遍历整个子树，找到后返回。

而这些方法的复数形式，会找到所有符合要求的tag，以list的方式放回。他们的对应关系是：find->findall, findParent->findParents, findNextSibling->findNextSiblings...，如：

5，find的几种用法，其他的类比： find(name=None, attrs={}, recursive=True, text=None, **kwargs)，文档参考：https://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html#The%20basic%20find%20method:%20findAll%28name,%20attrs,%20recursive,%20text,%20limit,%20**kwargs%29）

　（1）.搜索tag：

　（2），搜索属性(attrs)：

　（3），搜索文字（text）:

　　注意：文字的搜索会导致其他搜索给的值如：tag, attrs都失效。

方法与搜索tag一致；

　（4），recursive, limit：

　　　　 recursive=False表示只搜索直接儿子，否则搜索整个子树，默认为True。

　　　　当使用findAll或者类似返回list的方法时，limit属性用于限制返回的数量，如findAll('p', limit=2)：返回首先找到的两个tag

Python 学习者

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python3中BeautifulSoup解析html常用函数

1，初始化：soup = BeautifulSoup(html)# html为html源代码字符串，type(html) == str2，用tag获取相应代码块的剖析树：contents属性是一个列表，里面保存了该剖析树的直接儿子，如：3，用contents[], parent, nextSibling, previousSibling寻找父子兄弟tag:　...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。