Dairy07-Beautiful Soup入门

Beautiful Soup入门

1. Beautiful Soup是什么

Beautiful Soup库是解析、遍历、维护“标签树”的功能库。Beautiful Soup库,也叫beautifulsoup4 或 bs4。

2. Beautiful Soup类的基本元素

下面由一个例子来对以上Beautiful Soup库的5个基本元素进行介绍。

利用requests库获取demo.html的源代码,获取代码如下:

得到demo.html源代码:

2.1 Tag标签

代码案例如下:

输出结果如下,第一行输出title标签,第二行输出a标签:

2.2 Tag的name(名字)

2.3 Tag的attrs(属性)

代码案例如下:

输出结果如下,一个<tag>可以有0或多个属性,字典类型:

2.4 Tag的NavigableString

2.5 Tag的comment(Comment是一种特殊类型)

3.基于bs4库的HTML内容遍历方法

3.1 HTML基本格式

3.2 HTML内容的三种遍历方式

3.2.1 标签树的下行遍历

代码示例如下:

3.2.2 标签树的上行遍历

3.2.3 标签树的平行遍历

平行遍历发生在同一个父节点下的各节点间,下面是图解:

4.基于bs4库的HTML格式输出

bs4库的prettify()方法可以让HTML内容更加“友好”的显示。.prettify() 为HTML文本<>及其内容增加更加'\n' .prettify()可用于标签,方法:.prettify()

下面是代码演示:

  • 10
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值