今天要介绍一下bs4模块结尾我会奉上数据可视化的方法
老样子下载模块Beautfulsoup4这个模块有意思的就是名字这个模块的中文名字是美丽的汤为什么叫美丽的汤呢我也不晓得
下载模块的指令是 : pip install Beautfulsoup4
本文章会讲到对于本文章比较重要的东西所有如果想深入的了解可以参考一下官方文档
"Beautiful Soup Documentation — Beautiful Soup 4.12.0 documentation"
除了本章还会用到requests如果有不懂的可以留言
首先老样子吧导入本节要用到的模块
还是一如既往的爬虫四个步骤
1.明确要爬取目标网站
2.请求解析网站源代码
3.过滤数据
4.提取数据
今天爬取一个简单的网站也是专门为爬虫设计的网站"requests库及lxml库入门_S01_Spiderbuf"
然后用requests模块开始请求
目标网站 ===> 鼠标右键 ===> 点击检查 ===> 点击Network ===>点击页面左上角刷新页面
随便点开一个复制请求头的user-agent用requests的get方法开始请求网站源代码
请求完之后我们要用到bs4中的Beautfulsoup类来提取代码中的数据再用到bs4之前要下载lxml模块是用来解析代码的工具
下载命令 pip install lxml
然后我们可以直接找到标签来提取标签 .prettify() 方法可以更美花文本形式的HTML
’
在这里我们可以直接用find_all()函数找到<th>和<tr>标签因为是两个不同的标签所以要分为两个不同的部分来提取数据
因为find_all()函数返回我们的是以列表的形式返回所有我们分别用到for循环遍历一个遍然后配合着正则表达式把所有数据提取出来
然后程序运行就提取出来的所有需要的数据
以下是数据可视化的方法用到的第三方库是pyecharts
不废话了直接奉上代码看效果
运行结果
如果有不理解地方可以留言做不到准时但绝对回