Python爬虫包 BeautifulSoup 学习(四) bs基本对象与函数

本文介绍BeautifulSoup库中的四大核心对象——Tag、NavigableString、BeautifulSoup和Comment,以及如何通过它们解析和操作HTML文档。通过示例展示了获取Tag的name和attrs属性,以及对内容和属性的修改操作。还提到了NavigableString对象用于获取标签内的文本,以及处理Comment对象的注意事项。
摘要由CSDN通过智能技术生成

四大对象种类

BeautifulSoup将复杂HTML文档转换成一个复杂的树形结构。如图所示

这里写图片描述

每个节点都是Python对象,我们只用根据节点进行查询就可以了,因为解析工作交给了框架本身。所有对象可以归纳为4种:

  • Tag
  • NavigableString
  • BeautifulSoup
  • Comment

Tag

什么是Tag,举几个例子

<title>The Dormouse's story</title>

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

上面的title a 等等 HTML 标签加上里面包括的内容就是 Tag

在前几次的文章中,我们就是通过Tag来获取信息的。
如获得标签<title>

print soup.title
#<title>The Dormouse's story</title>

我们可以利用 bs4加标签名轻松地获取这些标签的内容,比用正则表达式求方便很多。

不过有一点是,它查找的是在所有内容中的第一个符合要求的标签,如果要查询所有的标签,则需要使用find()find_all()findAll())这两个函数,后面两个函数在目前的代码中来看功能和语法是一样的,如果后期有什么区别,我会再返回来讲的。

for item in soup.findAll('a'):
    print item,'\n'

print soup.find('a')
print soup.find_all('a', limit = 1)[0]
  • 6
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值