项目背景
近年来,我国的环境问题比较严重,很多城市出现了雾霾天气,当然也有很多城市空气依旧清新,为了研究具体的空气环境城市分布,我们采用了假设检验以及线性回归的思想对AQI(空气质量指数)进行分析和预测,其中AQI的值越大,表示空气质量越差,AQI值越小,表明空气质量越好。
提出问题
1.列出空气质量优秀/较差的五个城市
2.全国空气质量分布情况
3.临海城市和内陆城市的空气质量对比
4.影响空气指数的因素
5.空气质量均值验证
数据字段描述
City 城市名
AQI 空气质量指数
Precipitation 降雨量
GDP 城市生产总值
Temperature 温度
Longitude 经度
Latitude 纬度
Altitude 海拔高度
PopulationDensity 人口密度
Coastal 是否沿海
GreenCoverageRate 绿化覆盖率
Incineration(10,000ton) 焚烧量(10000吨)
导入相应的模块以及数据集
数据处理
在进行数据分析之前,我们对数据集进行观察并对其中的缺失值、重复值、异常值进行处理
处理缺失值
我们发现降雨量数据中包含了4个缺失值,为了保证数据的精确,我们查一下降雨量的数据分布