Scikit-learn
Scikit-learn简介
第三方模块,对机器学习的算法进行了封装,包括回归、降维、分类和聚类四大机器学习方法。是Scipy模块的扩展,建立在Numpy和Matplotlib基础上,是简单高效的数据挖掘和数据分析工具。
Scikit-learn安装
pip install -U scikit-learn
要求python版本高于2.7版本,Numpy版本高于1.8.2。
线性模型
Scikit-learn对于繁琐的线性回归求解数学过程设计好了线性模型,通过直接调用其linear_model模块就可以实现线性回归分析。linear-model模块中提供了包括最小二乘法回归、岭回归、Lasso、贝叶斯回归等等。
线性回归:线性回归是利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析与预测的方法,应用十分广泛。在线性回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果线性回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。(百度百科)
最小二乘法回归
参考链接
- https://www.zhihu.com/question/37031188
- https://blog.csdn.net/MarsJohn/article/details/54911788
- https://blog.csdn.net/u010687164/article/details/86160221
二乘即是平方,最小二乘法也称为最小平方法,通过最小化误差的平方和使得预测值与真实值无限接近。
在研究两个变量(x,y)之间的相互关系时,将一系列的数据(x1,y1)(x2,y2)…(xn,yn)描绘到x-y坐标系中,寻找一条直线,使得数据的这些点都在这条直线附近。直线方程的表达式为
Y i = a 0 + a 1 x i Y_i=a_0+a_1x_i Yi=a0+a1xi
通过算术平均数可以使误差最小,确定a0,a1的计算公式如下:
a 1 = n ∑ i = 1 n x i y i − ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n x i 2 − (