BeautifulSoup应用笔记(2)- 遍历文档树

通过点取属性的方式能够遍历文档树,属性如下:

获取标签

  • .tag名称: 获取标签,如果有多个结果只能获得第一个标签

获取子节点

  • .contents/ .child:获取直接子节点
  • .descendants:获取子孙节点

获取字符串

  • .string:获得NavigableString类型的子节点。如果包含多个NavigableString类型的子节点,则返回结果为None
  • .strings/ .stripped_string:获取所有的字符串,.stripped_string会过滤掉空白字符串

获取父节点

  • .parent/ .parents:获取父节点/获取父辈节点

获取兄弟节点

  • .next_sibling/ .previsous_sibling/ .next_siblings/ .previsous_siblings:获取兄弟节点

获取元素

  • .next_element/ .previous_element/ .next_elements/ .previous_elements:获取上一个/下一个元素。获取元素的顺序与HTML解析的顺序一致,如"<title>The Dormouse's story</title>"标签的下一个元素为字符串"The Dormouse's story"

 

通过查看源码可以看到,上述属性在底层实际上是通过@property装饰器定义的,另外在返回多个值时,定义的是一个生成器函数:

    @property
    def next_elements(self):
        i = self.next_element
        while i is not None:
            yield i
            i = i.next_element

    @property
    def next_siblings(self):
        i = self.next_sibling
        while i is not None:
            yield i
            i = i.next_sibling


 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值