python爬虫入门基础 | BeautifulSoup的基本使用

最新推荐文章于 2024-07-05 08:36:01 发布

去海边钓猪

最新推荐文章于 2024-07-05 08:36:01 发布

阅读量396

点赞数 2

分类专栏： python爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/super1223/article/details/111451903

版权

本文介绍了Python爬虫库BeautifulSoup的基础使用，包括准备静态页面、节点对象属性和find_all()、select()等核心函数的应用示例。

摘要由CSDN通过智能技术生成

你要足够努力，才能够游刃有余
这篇文章会花一定的篇幅来描写bs4库中BeautifulSoup的一些基本使用方法，适用于爬虫的基础，不是特别的系统。

1.准备工作

首先找一个静态页面用来BeautifulSoup的基本测试。baidu.html下载
由于用于测试，它的属性比较简单。
在这里插入图片描述

2.bs4节点对象的基本属性

bs4将复杂的html文档转换为一个复杂的树形结构，每个节点都是python对象，所有对象的属性可以归纳为四种
-Tag
-NavigableString
-BeautifulSoup
-Comment
他所有节点的查找都是通过 BeautifulSoupf.标签名称来查找的。

from bs4 import BeautifulSoup
file = open("./baidu.html","rb")
html = file.read().decode("utf-8");
bs = BeautifulSoup(html,"html.parser")   #以html的形式解析
# 1.Tag 标签及内容；拿到它所找的第一个内容
print(bs.title)                   #找到第一个title节点以及里面的内容
print(type(bs.title))             #类型为Tag

运行结果：
在这里插入图片描述

NavigableString

# 2.NavigableString 类型；标签里的内容，字符串
print(bs.title.string)            #提取Tag里面的字符串
print(type(bs.title.string))      #类型为NavigableString
print(bs.a.attrs)                 #以键值对的形式保存内容

运行结果：

最低0.47元/天解锁文章

去海边钓猪

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
python爬虫入门基础 | BeautifulSoup的基本使用

你要足够努力，才能够游刃有余这篇文章会花一定的篇幅来描写bs4库中BeautifulSoup的一些基本使用方法，适用于爬虫的基础，不是特别的系统。目录1.准备工作2.bs4节点对象的基本属性3.bs4的几个基本函数3.1. find_all()：3.2. select()：1.准备工作首先找一个静态页面用来BeautifulSoup的基本测试。baidu.html下载由于用于测试，它的属性比较简单。2.bs4节点对象的基本属性bs4将复杂的html文档转换为一个复杂的树形结构，每个节点都.
复制链接

扫一扫

专栏目录