python爬取空气质量_python爬取全国空气质量信息

最新推荐文章于 2024-08-20 21:38:07 发布

weixin_39954569

最新推荐文章于 2024-08-20 21:38:07 发布

阅读量1.6k

点赞数 1

文章标签： python爬取空气质量

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39954569/article/details/111452312

版权

本文介绍如何使用Python的requests、gevent、re和csv模块爬取全国空气质量信息并存储到CSV文件中。通过分析目标网页结构，提取城市链接，再遍历每个城市的月份数据，最后利用多协程加速爬取。示例代码包括正则表达式和BeautifulSoup两种解析方式，数据存储方便后续分析。

摘要由CSDN通过智能技术生成

主要模块

requests模块。使用requests模块来获取http响应

gevent模块。使用gevent开启多个协程，加快爬取速度

re模块或beautifulsoup模块。正则表达式解析与beautifulsoup解析两种解析方式我都会写出来。

csv模块。用于将数据导出至csv文件内

分析过程

1.要爬取的页面的URL地址为：http://www.tianqihoubao.com/aqi/。首先访问该页面(如下图)获取所有城市a标签的href属性，知道了各个城市的api，就可以接着爬取每个城市具体的空气质量了。

2.打开chrome的调试页面，可以看到，a标签在dd标签下，而且整个页面，只有dd标签下只要a标签没有其他标签了。所以正则匹配或使用BS4查找元素时，都可以先找dd标签，再找下面的a标签的href属性。(整个页面只有这里有dd标签，所以要查找dd标签)

3.找到每个城市的url后，再点击去看，发现是月份选择，这里是2020年3月为例，点进去。可以看到，找到了我们需要的空气质量信息。接下来就看如何从页面中将天气信息提取出来。

4.打开chrome调试工具。可以看到，需要的空气质量信息，在tr标签下的td标签内，而且每个tr标签对应一天的空气质量信息，那么就可以首先查找tr标签ÿ

最低0.47元/天解锁文章

weixin_39954569

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。