案例数据分析--对城市空气质量指数的分析

这篇博客通过对城市空气质量指数(AQI)的分析,探讨了数据预处理中的缺失值、异常值处理,以及数据分析过程,包括空气质量最好和最差城市的识别、全国空气质量等级分布和临海城市与内陆城市的空气质量对比。
摘要由CSDN通过智能技术生成

1、AQI分析与预测

1.1、背景信息

AQI(Air Quality Index),指空气质量指数,衡量空气清洁或污染的程度,值越小,表示空气质量越好。

1.2、分析目标

运用分析解决以下问题:
1、哪些城市的空气质量较好/较差【描述性统计分析】
2、空气质量在地理位置分布上,是否具有一定的规律性?【描述性统计分析】
3、临海城市的空气质量是否有别于内陆城市?【推断统计分析】
4、全国城市空气质量普遍处于何种水平?【区间估计】
5、怎样预测一个城市的空气质量?【统计建模】

1.3、数据集描述

本次分析的数据集,包涵全国主要城市的相关数据及空气质量指数。

city:城市名
AQI:空气质量指数
Precipitation:降雨量
GDP:城市生产总值
Temperature:温度
Longitude:经度
Latitude:维度
Aititude:海拔高度
PopulationDensity:人口密度
Coastal:是否沿海
GreenCoverageRate:绿化覆盖率
Incineration(10,000ton):焚烧量(10000吨)

2、数据分析流程

2.1、基本流程

1、明确需求与目的
2、数据收集
(1)内部数据
(2)购买数据
(3)爬取数据
(4)调查问卷
(5)其他收集
3、数据预处理
(1)数据整合:横向整合、纵向整合
(2)数据清洗:缺失值、异常值、重复值
(3)数据转换
4、数据分析
(1)描述分析
(2)推断分析
(3)数据建模:特征工程、超参数调整
(4)数据可视化
5、编写报告

3、读取数据

3.1、导入相关的库

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

sns.set(style="darkgrid")
plt.rcParams["font.family"]="SimHei"
plt.rcParams["axes.unicode_minus"]=False
warnings.filterwarnings("ignore")

3.2、数据集加载

data = pd.read_csv("data.csv")
print(data.shape)

在这里插入图片描述
数据加载之后,可以用head/tail/sample等方法查看数据的大致情况

data.sample()

在这里插入图片描述

4、数据清洗

4.1、缺失值

4.1.1、缺失值探索

可使用如下方法查看缺失值:info、isnull

data.isnull().sum(axis=0)
#data.info()

在这里插入图片描述
可以看出Precipitation(降雨量)列存在缺失值,需进行处理。

4.1.2、缺失值处理

对缺失值的处理方式主要有以下几种:
1、删除缺失值:仅适合于缺失数量很少的情况;
2、填充缺失值
(1)数值变量:均值填充、中值填充;
(2)类别变量:众数填充、单独作为一个类别;
(3)额外处理说明:
a.缺失值小于20%,直接填充;
b.缺失值在20%-80%,填充变量后,同时增加一列,标记该列是否缺失,参与后续建模;
c.缺失值大于80%,不使用原始列,而是增加一列,标记该列是否缺失,参与后续建模。

4.1.2.1、数据分布
print(data["Precipitation"].skew(
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值