爬虫第三天（3）

最新推荐文章于 2024-10-16 11:04:34 发布

Sharps.

最新推荐文章于 2024-10-16 11:04:34 发布

阅读量831

点赞数 4

文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84811526/article/details/141401404

版权

今天要介绍一下bs4模块结尾我会奉上数据可视化的方法

老样子下载模块Beautfulsoup4这个模块有意思的就是名字这个模块的中文名字是美丽的汤为什么叫美丽的汤呢我也不晓得

下载模块的指令是 : pip install Beautfulsoup4

本文章会讲到对于本文章比较重要的东西所有如果想深入的了解可以参考一下官方文档

"Beautiful Soup Documentation — Beautiful Soup 4.12.0 documentation"

除了本章还会用到requests如果有不懂的可以留言

首先老样子吧导入本节要用到的模块

还是一如既往的爬虫四个步骤

1.明确要爬取目标网站

2.请求解析网站源代码

3.过滤数据

4.提取数据

今天爬取一个简单的网站也是专门为爬虫设计的网站"requests库及lxml库入门_S01_Spiderbuf"

然后用requests模块开始请求

目标网站 ===> 鼠标右键 ===> 点击检查 ===> 点击Network ===>点击页面左上角刷新页面

随便点开一个复制请求头的user-agent用requests的get方法开始请求网站源代码

请求完之后我们要用到bs4中的Beautfulsoup类来提取代码中的数据再用到bs4之前要下载lxml模块是用来解析代码的工具

下载命令 pip install lxml

然后我们可以直接找到标签来提取标签 .prettify() 方法可以更美花文本形式的HTML

’

在这里我们可以直接用find_all()函数找到<th>和<tr>标签因为是两个不同的标签所以要分为两个不同的部分来提取数据

因为find_all()函数返回我们的是以列表的形式返回所有我们分别用到for循环遍历一个遍然后配合着正则表达式把所有数据提取出来

然后程序运行就提取出来的所有需要的数据

以下是数据可视化的方法用到的第三方库是pyecharts

不废话了直接奉上代码看效果

运行结果

如果有不理解地方可以留言做不到准时但绝对回

关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。