BeautifulSoup应用笔记(2)- 遍历文档树

原创 2015年11月20日 16:59:12

通过点取属性的方式能够遍历文档树,属性如下:

获取标签

  • .tag名称: 获取标签,如果有多个结果只能获得第一个标签

获取子节点

  • .contents/ .child:获取直接子节点
  • .descendants:获取子孙节点

获取字符串

  • .string:获得NavigableString类型的子节点。如果包含多个NavigableString类型的子节点,则返回结果为None
  • .strings/ .stripped_string:获取所有的字符串,.stripped_string会过滤掉空白字符串

获取父节点

  • .parent/ .parents:获取父节点/获取父辈节点

获取兄弟节点

  • .next_sibling/ .previsous_sibling/ .next_siblings/ .previsous_siblings:获取兄弟节点

获取元素

  • .next_element/ .previous_element/ .next_elements/ .previous_elements:获取上一个/下一个元素。获取元素的顺序与HTML解析的顺序一致,如"<title>The Dormouse's story</title>"标签的下一个元素为字符串"The Dormouse's story"

 

通过查看源码可以看到,上述属性在底层实际上是通过@property装饰器定义的,另外在返回多个值时,定义的是一个生成器函数:

    @property
    def next_elements(self):
        i = self.next_element
        while i is not None:
            yield i
            i = i.next_element

    @property
    def next_siblings(self):
        i = self.next_sibling
        while i is not None:
            yield i
            i = i.next_sibling


 

 

版权声明:本文为博主的原创文章,欢迎转载,但请注明出处,谢谢!

python+BeautifulSoup文档遍历树子节点

文档遍历树:html_doc = """ The Dormouse's storyThe Dormouse's storyOnce upon a time there were three littl...
  • is___oneself
  • is___oneself
  • 2017年01月20日 17:29
  • 2354

Beautiful Soup(二)--遍历文档树

[Top] Beautiful Soup--遍历文档树
  • yybmec
  • yybmec
  • 2015年03月18日 18:02
  • 1315

Learn Beautiful Soup(4)—— 一个简单抓取图书信息的例子

抓取图书信息的网站地址为www.packtpub.com/all 展示内容如下:
  • abclixu123
  • abclixu123
  • 2014年10月03日 11:34
  • 3572

在应用程序中遍历文档模板

  • 2013年04月24日 10:30
  • 2.31MB
  • 下载

树2. List Leaves(树的遍历,队列的简单应用)

首先参考ice_camel的博客,其实现方式非常简洁便于理解 题目要求 Given a tree, you are supposed to list all the leaves ...
  • as14569852
  • as14569852
  • 2017年06月13日 10:47
  • 105

BeautifulSoup应用笔记(1)- 解析器及对象类型

解析器 BeautifulSoup支持Python标准库中的HTML解析器(html.parser),还支持一些第三方的解析器,如:lxml、html5lib,官方推荐使用lxml(优势:速度快、支持...
  • fengqingting2
  • fengqingting2
  • 2015年11月20日 10:23
  • 1604

python+BeautifulSoup文档遍历树子节点

文档遍历树:html_doc = """ The Dormouse's storyThe Dormouse's storyOnce upon a time there were three littl...
  • is___oneself
  • is___oneself
  • 2017年01月20日 17:29
  • 2354

BeautifulSoup学习笔记2

filters
  • sinat_36651044
  • sinat_36651044
  • 2017年07月10日 20:40
  • 201

VC++深入详解 笔记 第三章(2) 一个单文档MFC应用程序的创建过程

P66 对于一个单文档应用程序,都有一个CMainFrame类,一个以"C+工程名+App"为名字的类,一个以"C+工程名+Doc"为名字的类和一个以"C+工程名+View"为名字的类。假设建立一个名...
  • haojiahuo50401
  • haojiahuo50401
  • 2011年04月28日 22:15
  • 3443

Java基础复习笔记08数据结构-二叉树和二叉树的遍历

  • 2011年05月08日 21:57
  • 276KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:BeautifulSoup应用笔记(2)- 遍历文档树
举报原因:
原因补充:

(最多只允许输入30个字)