Spider2BeautifulSoup（1）

最新推荐文章于 2024-09-13 08:24:44 发布

苏格拉没底——

最新推荐文章于 2024-09-13 08:24:44 发布

阅读量172

点赞数

分类专栏： Python/爬虫/可视化/数分

本文链接：https://blog.csdn.net/qq_924485343/article/details/110499298

版权

Python/爬虫/可视化/数分专栏收录该内容

37 篇文章 0 订阅

订阅专栏

BeautifulSoup 将读取到的 html 进行解析，在内存中以树的形式存储，便于操作

常用的操作有

t_list = bs.find_all("a") 找到所有的a标签并返回成列表形式

bs.title 返回一个标签以及其内部的所有东西

bs.title.string 返回一个标签的内容

bs.title.attrs 返回一个标签的属性

bs.head.contents 将head里面的内容以列表形式返回

# bs4  BeautifulSoup 可以解析 xml文件，jason文件，html文件
from bs4 import BeautifulSoup

#打开文件 并 放入内存
file = open("./baidu.html","rb")

html = file.read().decode("utf-8")
# 以 字节形式 打开并读取了 html 则  html的类型是 bytes 字节形式
# print("html: ",type(html))

# 在内存中 建立了 一个 树形 的 结构
bs = BeautifulSoup(html,"html.parser")

#  以 BeautifulSoup 形式来  在内存中 建立了 一个 树形 的 结构
# print(bs)
# print(type(bs))

#<class 'bs4.element.Tag'>
# 得到一个个标签 及其 first 内容
# print(bs.head)
# print(type(bs.head))

# <class 'bs4.element.NavigableString'>
# print(bs.title.string) 得到内容
# print(type(bs.title.string))

# <class 'dict'>
# print(bs.a.attrs)
# print(type(bs.title.attrs)) #得到属性

# contents 获取Tag的所有子节点 返回一个list
# print(bs.head.contents)
# print(bs.head.contents)

# print(bs.body.contents[1])