Spider__2__BeautifulSoup(1)

BeautifulSoup 将 读取到的 html 进行解析,在内存中以树的形式存储,便于操作

常用的操作有 

t_list = bs.find_all("a")      找到所有的a标签并返回成列表形式

bs.title   返回一个标签以及其内部的所有东西

bs.title.string            返回一个标签的内容

bs.title.attrs       返回一个标签的属性

bs.head.contents        将head里面的内容以 列表形式 返回  

# bs4  BeautifulSoup 可以解析 xml文件,jason文件,html文件
from bs4 import BeautifulSoup

#打开文件 并 放入内存
file = open("./baidu.html","rb")

html = file.read().decode("utf-8")
# 以 字节形式 打开并读取了 html 则  html的类型是 bytes 字节形式
# print("html: ",type(html))

# 在内存中 建立了 一个 树形 的 结构
bs = BeautifulSoup(html,"html.parser")

#  以 BeautifulSoup 形式来  在内存中 建立了 一个 树形 的 结构
# print(bs)
# print(type(bs))

#<class 'bs4.element.Tag'>
# 得到一个个标签 及其 first 内容
# print(bs.head)
# print(type(bs.head))

# <class 'bs4.element.NavigableString'>
# print(bs.title.string) 得到内容
# print(type(bs.title.string))

# <class 'dict'>
# print(bs.a.attrs)
# print(type(bs.title.attrs)) #得到属性

# contents 获取Tag的所有子节点 返回一个list
# print(bs.head.contents)
# print(bs.head.contents)

# print(bs.body.contents[1])

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值