Python爬虫利器:Beautiful Soup的使用(二)

本文详细介绍了如何使用Beautiful Soup库遍历HTML文档,包括子节点、父节点、兄弟节点以及回退和前进的操作。内容涵盖(contents, children, descendants, strings等属性)和(next_sibling, previous_sibling, parents等方法),帮助理解文档树遍历的关键概念。" 131658920,8417389,Microsoft Office 应用全解析,"['Microsoft', 'Office套件', '文档处理', '数据管理', '协作工具']
摘要由CSDN通过智能技术生成

上一篇文章介绍了 BeautifulSoup 的安装以及基本对象类型。

本次介绍使用 bs4 对 HTML 文档树的遍历。

先把本文用到的例子贴上:

str = """
<!DOCTYPE html>
<html>
<head><title>bs4 test</title></head>
<body>
    <h1>bs4 test</h1>
    <div>
        <ul>
            <li><a>PHP</a></li>
            <li><a>Python</a></li>
            <li><a>Golang</a></li>
        </ul>
    </div>
    <p><span>a</span><i>b</i><em></em></p>
</body>
</html>
"""

文档树的遍历:

文档树的遍历包括以下四部分:

  1. 子节点
  2. 父节点
  3. 兄弟节点
  4. 回退和前进

一、子节点

一个标签可能包含多个字符串或者其他标签,这些标签都属于子节点。要获取子节点,首先需要得到一个 Tag 对象:

获取一个 Tag 对象最简单的方式是用 bs4 对象点上要获取的标签的名字,同时支持链式调用。<

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值