环境仍然是Jupyter Notebook, py2.7,至今没发现拿python做数据分析,有比这个笔记本更好用的工具。
此篇文章呢,主要是通过一个小的机器学习的项目,来说明一下,相关的大概步骤和所涉及到各种概念。
原始数据:有如下特点
波士顿房屋这些数据于1978年开始统计,共506个数据点,涵盖了麻省波士顿不同郊区房屋14种特征的信息。本项目对原始数据集做了以下处理:
1,异常的点的清除
2,无关特征的清除
数据操作这块主要通过Numpy和Pandas
数据展示这块主要是matplotlib和后台自定义的包visuals(仍然是基于matplotlib)
第一步操作,就是在读入housing.csv文件后,统计一下价格的最小值、最大值、均值、中值和标准差,后期做数据分析的时候,其实用到这几个统计值。
这里实现呢,本身python是自带统计函数的,但是,这里使用numpy相关的函数处理,理论上速度应该更快一些。
可以这样认为,numpy包是基于python做的优化,而pandas是基于numpy做的优化。
其他数据特征含义,可参考下图:
第二步操作,开始建模准备
选用R^2, 也就是决定系数作为模型的评测函数,一看这意思,就是要用回归分析来进行预测啦,因为决定系数,就是回归分析中最经常用的评价指标,
比如,回归系数是否显著,调整后