今天来点分享点干货吧,这个题是这学期数学建模的课题,不过鉴于本人数学比较渣而且时间精力有限,实现的思路比较传统和简单,用到了多元线性回归和主成分分析来求解模型,这也是统计学习方法里面比较常见的一种,正好在上个学期学习了R语言的使用,用来做统计分析十分方便。
首先面临的问题是数据收集,经过多方查找,终于找到了PM2.5.in这个网站提供的开放数据接口,用python写爬虫爬到了一年来北京市的空气质量监测数据。又考虑到空气质量和工业、经济发展、天气等多方因素有关,但是在这其中容易收集到的就是天气数据,故在天气后报网站上手工复制到一年来的天气数据,以及动用各种搜索引擎耗尽十年功力找到13年全年和14年夏天几个月的湿度数据,从气候条件这一切入点做相关分析。原始数据格式如下:
第一个要解决的问题就是空气质量与哪些污染物有密切的关系?(废话,肯定是PM2.5嘛。。)不过数据胜于雄辩,用r语言求解相关矩阵的方法(cor())求出空气质量指数AQI和其他污染物的相关矩阵以及图像如下:
Perfect,结果让我们很满意,AQI和PM2.5之间的相关程度最高,印证了我们最初的猜想((-,-)|||),之后我们的分析就可以围绕PM2.5展开鸟~
首先做一个不太有意义的分析,我们看到AQI是直接和污染物的浓度挂钩的,那么问题来了,能不能由这些污染物的浓度倒推出AQI的计算公式呢?我们知道求解因变量与多变量之间的最常用