线性回归算法原理推导
线性回归
- 注意回归与分类问题的差别。回归的结果是一个完整的值,分类是是与否的问题。 特征值是怎么影响结果的。先进行一个假设,假设参数,参数反应的是数据对结果的影响,也称为权重系数,对最后的结果产生较大的影响。参数和数据进行组合最终拟合出一个平面。
偏置项和数据没有关系,对最后的结果产生较小的影响。对偏置项进行组合,使得原式保持不变,因此引入X0 参数,全部等于1。这也是我们处理数据的时候,为什么在数据项增加一组数据全部为1,对上面的平面进行组合,看起来更加简单一些。矩阵计算方便,矩阵计算高效,而不是采用for循环。
误差分析
理论模型和实际模型之间肯定是存在差异的,引入误差项
误差的特征(机器学习假设,从实际情况出发,做出的假设):- 独立: 每个样本都是独立的,之间没有影响
- 同分布:同一家银行,因为只能建立一个模型,建立模型的数据都是来自同一个部分。
- 高斯分布 (正态分布)均值为0 方差为出现的可能性 大范围的偏差,中间的值比较多,两边的值比较小。
似然函数求解(误差与测量值之间的关系)
观测样本数据得到参数,什么样的参数跟数据组合得到的真实值的可能性越大越好。什么样的参数跟数据组合得到的真实值的可能性(概率)越大越好,称为真实值的概率最大最好。线性回归依照最大似然函数来知道什么参数是合理的,离真实值比较接近
目标函数的推导 使得对数似然函数最大的变量
累乘转换成累加
求目标函数最小值,因此我们需要对目标函数求偏导数。矩阵求偏导数的公式。
为什么偏导数等于0的时候对应的是最小值呢?
涉及到机器学习中的一个概念 凸优化
在凸函数里面,偏导数等于0对应的是最小值
评价指标:R^2
分子:残差平方和
分母:方差
R^2越接近1越好 越接近0越不好