案例数据分析--对城市空气质量指数的分析

最新推荐文章于 2025-02-20 11:48:45 发布

0-shu

最新推荐文章于 2025-02-20 11:48:45 发布

阅读量7.6k

点赞数 8

本文链接：https://blog.csdn.net/m0_46511764/article/details/105454317

版权

这篇博客通过对城市空气质量指数（AQI）的分析，探讨了数据预处理中的缺失值、异常值处理，以及数据分析过程，包括空气质量最好和最差城市的识别、全国空气质量等级分布和临海城市与内陆城市的空气质量对比。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、AQI分析与预测

1.1、背景信息

AQI（Air Quality Index），指空气质量指数，衡量空气清洁或污染的程度，值越小，表示空气质量越好。

1.2、分析目标

运用分析解决以下问题：
1、哪些城市的空气质量较好/较差【描述性统计分析】
2、空气质量在地理位置分布上，是否具有一定的规律性？【描述性统计分析】
3、临海城市的空气质量是否有别于内陆城市？【推断统计分析】
4、全国城市空气质量普遍处于何种水平？【区间估计】
5、怎样预测一个城市的空气质量？【统计建模】

1.3、数据集描述

本次分析的数据集，包涵全国主要城市的相关数据及空气质量指数。

city：城市名
AQI：空气质量指数
Precipitation：降雨量
GDP：城市生产总值
Temperature：温度
Longitude：经度
Latitude：维度
Aititude：海拔高度
PopulationDensity：人口密度
Coastal：是否沿海
GreenCoverageRate：绿化覆盖率
Incineration（10,000ton）：焚烧量（10000吨）

2、数据分析流程

2.1、基本流程

1、明确需求与目的
2、数据收集
（1）内部数据
（2）购买数据
（3）爬取数据
（4）调查问卷
（5）其他收集
3、数据预处理
（1）数据整合：横向整合、纵向整合
（2）数据清洗：缺失值、异常值、重复值
（3）数据转换
4、数据分析
（1）描述分析
（2）推断分析
（3）数据建模：特征工程、超参数调整
（4）数据可视化
5、编写报告

3、读取数据

3.1、导入相关的库

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

sns.set(style="darkgrid")
plt.rcParams["font.family"]="SimHei"
plt.rcParams["axes.unicode_minus"]=False
warnings.filterwarnings("ignore")

3.2、数据集加载

data = pd.read_csv("data.csv")
print(data.shape)

在这里插入图片描述
数据加载之后，可以用head/tail/sample等方法查看数据的大致情况

data.sample()

在这里插入图片描述

4、数据清洗

4.1、缺失值

4.1.1、缺失值探索

可使用如下方法查看缺失值：info、isnull

data.isnull().sum(axis=0)
#data.info()

在这里插入图片描述
可以看出Precipitation（降雨量）列存在缺失值，需进行处理。

4.1.2、缺失值处理

对缺失值的处理方式主要有以下几种：
1、删除缺失值：仅适合于缺失数量很少的情况；
2、填充缺失值
（1）数值变量：均值填充、中值填充；
（2）类别变量：众数填充、单独作为一个类别；
（3）额外处理说明：
a.缺失值小于20%，直接填充；
b.缺失值在20%-80%，填充变量后，同时增加一列，标记该列是否缺失，参与后续建模；
c.缺失值大于80%，不使用原始列，而是增加一列，标记该列是否缺失，参与后续建模。