用Python监控并分析城市空气质量

同为发展中国家,印度也受到空气质量问题的困扰,本文就以印度的城市为例进行数据分析。利用简单的Python代码,分析城市空气质量及其每天在全国范围内(即印度水平)的排名。

图片

在开始之前,先介绍一下整个分析过程中使用的一些基本原理。印度政府中央污染控制委员会(CPCB)是该国环境空气质量监测的监管机构,每天为那些设有连续环境空气质量监测站的印度城市发布空气质量相关信息公告。该公告包含有特定城市的空气质量指数(AQI)、空气质量类别、标准污染物以及该城市运行的监测站数量相关的信息。本文正是通过分析这个空气质量指数(AQI)来对城市进行排名。

如下所示是对于公告中一些术语的解释:

  • a)空气质量指数(AQI):空气质量指数是一个表示空气质量状况的无量纲数字。
  • b)空气质量类别或等级:根据空气质量指数,空气质量情况被分为6个类别,即“优秀”、“良好”、“中等”、“差”、“非常差”和“严重”。随着空气质量的下降,该类别从“优秀”到“严重”,表明有可能对健康产生不利影响。
  • c)标准污染物:尺寸为2.5和10微米的颗粒物、二氧化氮(NO2)、二氧化硫(SO2)、一氧化碳(CO)、臭氧(O3)、氨(NH3)和铅(Pb)是空气质量指数计算中涉及的具有潜在不利健康影响的主要标准污染物。在计算单个污染物的空气质量指数值时,应将空气质量指数最高的污染物宣布为该市的空气质量指数,并将相应的污染物宣布为标准污染物。
  • d)监测站:表示该城市在特定日期内运行的空气质量监测站的总数。这些监测站监测的污染物浓度(即标准污染物)用于评估任何城市的空气质量指数。

进行此分析有何好处?

官员们从AQI公告中实际汇编了感兴趣的城市信息。随着所关注的城市的增加,这项工作变得更加困难,必须在下午6点前报告上级,而公告在每天4点后才发布,这可能会导致无意的人为错误。由于这些原因开发了这套Python代码。这种分析的好处包括减少人工分析的人力,可靠的结果减少了人为的错误,提高了公众的知识水平,提高了政策制定者做出明智选择的能力,包括监测当地空气质量管理的结果等。

现在开始编码:

  • 第1步:导入库

导入库numpyrequestspandassystabularequests库是为了从出版商的页面上采集AQI公告。然后tabula库将PDF格式的公告读到数据框中。pandasnumpy用作数据分析和科学计算。

## 导入库
import pandas as pd
import requests
from tabula import read_pdf
import numpy as np
import sys
  • 第2步:用户定义的输入

a)感兴趣的日期(YYYYMMDD格式);

b)下载PDF格式的AQI公告文件的路径;

c)特定城市/感兴趣的城市名单(可选)。

最终分析提供了每日AQI公告中提到的所有城市的排名。然而,在提取特定城市/感兴趣的城市的排名的情况下,可以在c)中提供这些城市的名单。确保与c)中提供的城市相关的信息必须出现于AQI公报中。

## 用户输入
date = input('a) Enter the date of interest (on or after 29th January 2018) in the format YYYYMMDD: ') ##20180129 onwards
pathway = input('b) Define the Pathway address to download the bulletin: ') ##example C:/Users/USER/Downloads
list_of_cities = input('c) Enter the list of cities separated by commas and no space: ') ##Example Mumbai,Bangalore,Kolkata. Disclaimer: Make sure the cities mentioned are present in the Bulletin list

警告:请确保调用的意向日期是在2018年1月29日或之后。

## 日期调用检查
if date<'20180129':
  sys.exit('Call the dates on or after 29th January 2018 and re-run the codes')

检查完成后继续进行后续步骤。

  • 第3步:下载AQI公告

使用request库下载AQI公告。使用tabula库以数据帧格式读取下载的pdf文件。如果在用户定义的日期内无法获得AQI公报,运行将被终止。

## 下载公告
k = requests.get('https://cpcb.nic.in//upload/Downloads/AQI_Bulletin_'+str(date)+'.pdf')

if k.status_code==404:
    sys.exit('No Bulletin exists for the mentioned date. Please try different date')
 
with open(pathway+'/AQI_Bulletin_'+str(date)+'.pdf','wb') as f:
    f.write(k.content)
    
## 以数据帧格式读取pdf
pathway = pathway+'/AQI_Bulletin_'+str(date)+'.pdf'
file = read_pdf(pathway,pages='all')
  • 第4步:基本数据清理

在这里,删除重复的和不适用的数据,重新设置列名,并按AQI的降序对数据框进行排序。包含AQI值的数据框列被命名为“索引”。

## 删除重复的内容
new_file = pd.DataFrame()
for i in range (0, len(file)):
    if i%2==0:
        extract_file = file[i]
        new_file = pd.concat([new_file,extract_file], axis=0)

## 提取列名
k= new_file.loc[0, ]
k.reset_index(inplace=True)
column_names = k.loc[1, ]
column_names = column_names[1: ]

## 重置列
new_file.columns = column_names

##从`new_file`中删除`NA`
new_file.dropna(inplace=True)

## 按AQI的降序对数据帧进行排序
final_file = new_file.loc[(new_file['City']!='City'), ]
final_file['Index Value']= final_file['Index Value'].astype(int)
final_file.sort_values(by='Index Value',ascending=False, inplace=True)
final_file.reset_index(inplace=True)
final_file.drop(columns=['S.No', 'index'], inplace=True)
  • 第5步:根据空气质量指数对城市进行排名

当天拥有最高AQI值的城市获得最高排名。输出final_file包括根据AQI值在AQI公告中指定的城市的排名。2个或更多具有相同AQI值的城市被提供相同的排名。

## 基于AQI的城市排名
final_file['ranking'] = np.arange(1, len(final_file)+1)

for i in range(0,len(final_file)-1):
    if final_file.loc[i,'Index Value']== final_file.loc[(i+1), 'Index Value']:
        final_file.loc[(i+1), 'ranking']= final_file.loc[i, 'ranking']
        for k in range(i+2,len(final_file)):
            final_file.loc[k, 'ranking'] = final_file.loc[k, 'ranking']-1
  • 第6步:对用户定义的城市进行排名并生成单独的数据帧

生成的输出文件名为city_ranking,包含了用户定义的特定城市的所有必要信息。

## 用户定义的城市排名
if len(city_list)> 0:
  city_list = list_of_cities.split(',')
  city_ranking = final_file.loc[final_file['City'].isin(city_list), ]

数据分析

首先运行代码。现在输入每个用户定义的预设条件:

  • a) 输入分析的日期,格式为YYYMMDD:20230401
  • b) 定义下载公告的Pathway地址:由用户决定,这里使用C:/Users/USER/Downloads
  • c) 输入由逗号和无空格分隔的城市列表:Mumbai、Delhi、Bangalore、Hyderabad、Ahmedabad、Chennai、Kolkata、Surat、Vadodara、Pune

输出如下图所示:

图片输出(city_ranking)显示了用户定义的城市的空气质量状况、指数、主要污染物、监测空气污染的监测站数量和排名。注:在用户定义的分析日期,AQI公报中没有与Bangalore和Vadodara有关的信息,因此没有显示在数据框中。

使用这套代码,可以了解许多有用的内容。例如,使用for循环,就可以使用来自AQI公告库的数据,并查看数据是如何随时间变化的。

关于Python学习指南

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

包括:Python激活码+安装包、Python web开发,Python爬虫,Python数据分析,人工智能、自动化办公等学习教程。带你从零基础系统性的学好Python!

👉Python所有方向的学习路线👈

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。(全套教程文末领取)

在这里插入图片描述

👉Python学习视频600合集👈

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

温馨提示:篇幅有限,已打包文件夹,获取方式在:文末

👉Python70个实战练手案例&源码👈

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉Python大厂面试资料👈

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

在这里插入图片描述

在这里插入图片描述

👉Python副业兼职路线&方法👈

学好 Python 不论是就业还是做副业赚钱都不错,但要学会兼职接单还是要有一个学习规划。

在这里插入图片描述

👉 这份完整版的Python全套学习资料已经上传,朋友们如果需要可以扫描下方CSDN官方认证二维码或者点击链接免费领取保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值