【A-006】python数据分析与机器学习实战-线性回归算法原理推导

版权声明:转载请声名出处,谢谢 https://blog.csdn.net/u010591976/article/details/82086130

线性回归算法原理推导

线性回归

  1. 注意回归与分类问题的差别。回归的结果是一个完整的值,分类是是与否的问题。 特征值是怎么影响结果的。先进行一个假设,假设参数,参数反应的是数据对结果的影响,也称为权重系数,对最后的结果产生较大的影响。参数和数据进行组合最终拟合出一个平面。
  2. 偏置项和数据没有关系,对最后的结果产生较小的影响。对偏置项进行组合,使得原式保持不变,因此引入X0 参数,全部等于1。这也是我们处理数据的时候,为什么在数据项增加一组数据全部为1,对上面的平面进行组合,看起来更加简单一些。矩阵计算方便,矩阵计算高效,而不是采用for循环。

    误差分析
    理论模型和实际模型之间肯定是存在差异的,引入误差项
    误差的特征(机器学习假设,从实际情况出发,做出的假设):

    1. 独立: 每个样本都是独立的,之间没有影响
    2. 同分布:同一家银行,因为只能建立一个模型,建立模型的数据都是来自同一个部分。
    3. 高斯分布 (正态分布)均值为0 方差为出现的可能性 大范围的偏差,中间的值比较多,两边的值比较小。

    似然函数求解(误差与测量值之间的关系)
    观测样本数据得到参数,什么样的参数跟数据组合得到的真实值的可能性越大越好。什么样的参数跟数据组合得到的真实值的可能性(概率)越大越好,称为真实值的概率最大最好。线性回归依照最大似然函数来知道什么参数是合理的,离真实值比较接近
    目标函数的推导 使得对数似然函数最大的变量
    累乘转换成累加
    求目标函数最小值,因此我们需要对目标函数求偏导数。矩阵求偏导数的公式。
    为什么偏导数等于0的时候对应的是最小值呢?
    涉及到机器学习中的一个概念 凸优化
    在凸函数里面,偏导数等于0对应的是最小值

评价指标:R^2
分子:残差平方和
分母:方差
R^2越接近1越好 越接近0越不好

展开阅读全文

没有更多推荐了,返回首页