回归算法(模型):用平均值,期望,方差,标准差进行预测估计
回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。
通过指数来进行判断即可,线性就是每个变量的指数都是1(一次方),为直线形态,而非线性就是至少有一个变量的指数不是1(二次方或多次方),为曲线形态。
线性回归:
利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十 分广泛。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。
线性回归
简单线性回归:只包括一个自变量和一个因变量,都为一次方(指数为1),且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归或者简单线性回归。
多元线性回归:如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
拟合方程:最小二乘法
一般来说,线性回归都可以通过最小二乘法求出其方程,可以计算出对于y=bx+a的直线。
由最小二乘法原理,我们可知这样确定的直线是唯一的。
二维空间内线性回归很简单。它就是寻找一条最优直线来对数据进行拟合。但我们怎么知道找到的直线是否为最优的呢?根据最小二乘原理,我们确定了这样一条准则:寻找一条直线,使得函数值与模型预测值之差的平方和最小。这也是我们所说的损失函数的原型。用数学模型表达的话就是
数学模型表达
多元线性回归模型的一般形式为
Yi=β0+β1X1i+β2X2i+…+βkXki+μi i=1,2,…,n
其中 k为解释变量的数目,βj(j=1,2,…,k)称为回归系数。
多元线性回归: