BeautifulSoup应用笔记（2）- 遍历文档树

Wind_365

于 2015-11-20 16:59:12 发布

阅读量2.3k

点赞数

分类专栏： Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fengqingting2/article/details/49946569

版权

Python 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

通过点取属性的方式能够遍历文档树，属性如下：

获取标签

.tag名称：获取标签，如果有多个结果只能获得第一个标签

获取子节点

.contents/ .child：获取直接子节点
.descendants：获取子孙节点

获取字符串

.string：获得NavigableString类型的子节点。如果包含多个NavigableString类型的子节点，则返回结果为None
.strings/ .stripped_string：获取所有的字符串，.stripped_string会过滤掉空白字符串

获取父节点

.parent/ .parents：获取父节点/获取父辈节点

获取兄弟节点

.next_sibling/ .previsous_sibling/ .next_siblings/ .previsous_siblings：获取兄弟节点

获取元素

.next_element/ .previous_element/ .next_elements/ .previous_elements：获取上一个/下一个元素。获取元素的顺序与HTML解析的顺序一致，如"<title>The Dormouse's story</title>"标签的下一个元素为字符串"The Dormouse's story"

通过查看源码可以看到，上述属性在底层实际上是通过@property装饰器定义的，另外在返回多个值时，定义的是一个生成器函数：

    @property
    def next_elements(self):
        i = self.next_element
        while i is not None:
            yield i
            i = i.next_element

    @property
    def next_siblings(self):
        i = self.next_sibling
        while i is not None:
            yield i
            i = i.next_sibling

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
BeautifulSoup应用笔记（2）- 遍历文档树

遍历文档树通过点取属性的方式能够遍历文档树，属性列表如下：
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。