利用网上搜集到的CSV数据,对北京市2010年至2014年的PM2.5情况进行分析。
数据获取
数据来源于 UC Irvine Machine Learning Repository网站中的Beijing PM2.5 Data Data Set,数据文件类型为CSV。
数据清洗预览:
数据共43824条,13个维度,其中部分字段代表含义如下
TEMP:温度
PRES:大气压力
cbwd:风向
Iws:风速
Is:是否下雪
Ir:是否下雨
从数据中,可以发现pm2.5数据列中存在缺失值,2010-2014年的北京pm2.5的均值为98.6,中位数为92.0,区间为[0,994].
pm2.5数据反映的是某一日某一时刻的pm2.5值,观察缺失值,发现有的是某一日的值都缺失,有的是某一日的某几个时刻的值缺失。打算以天为单位统计pm2.5的值,所以若某一日中出现了缺失值,则删除该日的所有时刻的pm2.5值,即处理缺失值的方法为删除记录。
数据清洗之后,再经过数据集成和数据变换,最终可用数据数量如下所示,单位为:天数
数据分析可视化:
以天为单位,统计出每年的pm2.5值的变化情况,以2014年为例,如下图所示。