线性回归模型
- 基本概念
定义:运用一条直线,近似地表示自变量x与因变量y之间的关系
公式:Y = aX + b
- 如何判断那条直线可以代表x与y之间的关系
- 如何理解线与散点之间的关系
这时候就可以依据误差来进行判定那条直线比较具有代表性了
- 目标
能够得到一条直线使得实际y与预测y之间的距离整体最短,转换为数学问题就是:找到一条直线使得全局误差最小(最优化的问题)
损失函数
- 根据上面的目标,要求经过损失函数处理后,可以的到最优解
- 线性回归模型损失函数
这里将y = ax+b带入,函数就转变为下面的那种,优化目标就由原来的寻找一条代表x和y关系的直线使得全局误差最小,变成了找到一组(a,b)的值使得损失函数的值最小
- 模型监督学习的本质
以最小化损失函数为目标,从数据中使用模型学习自变量x与因变量y之间的关系
最小二乘法
- 回顾一下上面的内容:
- 求解损失函数的方法:最小二乘法(大学的微积分)
因此对公式中的a,b求偏导,令其为零就可以求解出相应的数值了
化简后如下(二元一次方程组),这时候将所有的自变量x和因变量y带入到里面就可以求解出a,b
多元线性回归
- 和之前一元线性回归的区别(可以想象三维空间和二维的区别)
- 求解方法
由于数据的维度变多,还按照最小乘法的方式进行数据代入的方式求解是不靠谱的,因此需要使用到大学线性代数中矩阵的概念,用于矩阵求解,这时候不妨假定:a0 =1,x0=b,原来的方程就可以转化如下
上面为什么要这样假定,就是为了方便向量化的求解问题,如下
然后就是建模的理解,如下(需要有线性代数的知识,理解列向量)
矩阵求解