线性回归算法
回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
我们往往可以从数据中可以得到变量,我们可以找到一条合适的线(也可以拟合一个平面具体依维数而定)
假设对数据影响的参数,对拟合曲线(一维)进行参数表示,即h(x)=θ0+θ1x,x为数据,h(x)为预测值,θ1为参数,θ0是偏置项与数据无关。
整合:h(x)=θ0x0+θ1x1+···+θnxn,因为θ0是偏置项,所以x0为1,在机器学习的过程中为了数据很好的拟合到我们所整合的方程,数据中往往会多加一项值为一的数据x0。而最后为了计算的简介往往整合为矩阵算法即:h(x)=xθ^T
误差
真实值和预测值之间肯定是要存在差异的(用ε表示该误差)
对于每个样本:y(i)=θ^Tx(i)+ε(i),即:每个样本有每个样本的误差
·误差(ε(i))式独立并且就有相同的分布,并且服从均值为0方差为θ^2的高斯分布
·独立:每组数据误差之间互不影响,相互独立
同分布:每组数据误差的分布情况是相同(分布在相同位置的概率相同)