爬虫日记-html的遍历

基于bs4库的HTML遍历方法

img

标签树的下行遍历

img

来手打栗子,依然是用上一节的demo

import requests
from bs4 import BeautifulSoup
r=requests.get('https://python123.io/ws/demo.html')
demo=r.text
soup = BeautifulSoup(demo,'html.parser')
print(soup.prettify())

img

contents打印出了所有子标签,存在列表里展示

也可以通过索引取值。

img

标签树的上行遍历

img

img

html已经是html的最高级标签了,没有父标签,所以他的父标签就是它本身。

因为 soup的父节点没有,所以返回了一个空

标签树的上行遍历

img

这里拿出了一个parents,注意不是parent,所以这里是以上所有的父标签,放入一个列表之中,就可以迭代了,他就会每次都输出一个父标签的名字了。

标签树的平行遍历

img

需要注意的是,平行遍历只发生在同一个父亲节点之下,若是另一个节点之下的标签,是不算他的平行节点的。

img

最后一个打印结果为None,因为他的上上个已经没有平行节点了,所以为空。

img

这个平行遍历就不多讲了。就是这样实现的,和遍历父节点是一个原理。

img

这就是今天的总结图

转载于:https://www.cnblogs.com/chanyuli/p/11403043.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值