Python爬虫：bs4解析

Ohh24

已于 2022-11-02 20:04:28 修改

阅读量4.4k

点赞数 2

分类专栏：爬虫 python 文章标签： python 爬虫学习

于 2022-11-01 21:16:24 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Ohh24/article/details/127641552

版权

本文介绍了Python爬虫中BeautifulSoup4（bs4）的基础知识，包括其作用、安装方法以及如何查找和提取网页数据。通过一个实例展示了如何利用bs4爬取优美图库的图片，包括获取页面源码、解析子页面链接和下载图片的步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python爬虫：bs4解析

html语法
什么是bs4
bs4安装
从bs4中查找数据的方法
bs4的基本使用
实例：使用bs4爬取优美图库图片
- 思路
- 代码

html语法

<标签 属性=“值” 属性=“值”>
  被标记内容
</标签>

什么是bs4

bs4全称：beautifulsoup4，可以解析和提取网页中的数据，但需要使用特定的一些语法

bs4安装

pip install bs4

从bs4中查找数据的方法

1.find(标签，属性=值) 查找一个

举例：find(“table”,id=“3”) 查找一个id=3的内容，相当于查找一个html中<table id="3">xxxxx<table/>

2.find_all(标签，属性=值) 和find用法一致，只是能够用于查找所有值。

bs4的基本使用

使用bs4对数据进行解析主要通过两个步骤

1.把页面源代码交给beautifulsoup进行处理，生成bs对象

page = BeautifulSoup（resp.text，“html.parser”）

html.parser用来指定html解析器，相当于告诉bs4我提供的内容就是属于html内容的。

2.从bs对象中查找数据

page.find("table",class_="hq_table")

由于class是python的关键词，如果想要查找class是html中的class关键词，bs4提供一种方式区分python关键字和html关键字：可以在class的后面加“_”。

同样可以采用另一种写法来区别关键字：

page.find("table",attrs={"class":"hq_table"})

3.拿取数据

使用.text获取数据字段

例如：name = tds[0].text

实例：使用bs4爬取优美图库图片

思路

1.拿到主页面的源代码，然后提取到子页面的链接地址href
在这里插入图片描述
在网页中查看源代码，先搜索关键词“黑白冷淡风欧美图片”，发现源代码中可以找到相应结果，说明该网页是属于服务器渲染。

2.通过href拿到子页面的内容，从子页面中找到图片的下载地址
通过上述的源代码，可以找到href定位到该图片的子页面
在这里插入图片描述
在子页面中查看源代码，发现该图片的下载地址（img -&

最低0.47元/天解锁文章

博客等级

码龄6年

38
原创

44
点赞

173
收藏

11
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: Python爬虫：re解析

下一篇：: Python爬虫：xpath解析

最新评论

Python爬虫：bs4解析
北风之神c: 总结的很全面的爬虫，写得赞，博主用心了。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。 funboost 分布式函数调度框架，定位于调度用户的任何函数，只要用户在函数里面写爬虫代码，就可以分布式调度爬虫，并且对爬虫函数施加30种控制功能,例如 qps恒定任何时候随意关机重启代码消息万无一失确认消费非常简单的开启多进程叠加线程/协程,这些强大的功能绝大部分爬虫框架还做不到。此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，也比任意写的爬虫框架领先10年。普通爬虫框架一般就设计为url请求调度框架，url怎么请求都是被框内置架束缚死了，所以有些奇葩独特的想法在那种框架里面难以实现，用户需要非常之精通框架本身然后改造框架才能达到随心所欲的驾驭的目的。普通的爬虫框架与用户手写requests 请求解析存储，在流程逻辑上是严重互斥的，要改造成使用那种框架改造需要大改特改。而此框架是函数调度框架，函数里面用户可以随意写一切任意自由想法，天生不会有任何束缚。使用funboost爬虫，与用户使用别的爬虫框架或者无框架用户手写多线程爬虫相比， funboost都代码更少更强更简单更自由。 pip install funboost 或者是直接使用 pip install boost_spider (powerd by funboost ，boost_spider比funboost增加了更加专门的针对爬虫请求和解析和存储） https://github.com/ydf0509/b
Windows QARK安装与使用
is not defined: 安装qark失败
【论文总结】了解跨云物联网访问授权中的安全风险
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN月度精选】榜单，全部的排名请看 https://bbs.csdn.net/topics/615017725。
Python爬虫：bs4解析
ggeggggw: a.get没有作用是怎么回事？
【论文总结】了解跨云物联网访问授权中的安全风险
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN一周精选】榜单，全部的排名请看 https://bbs.csdn.net/topics/614690782。

大家在看

最新文章

目录

展开全部

收起

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。