一. 线性回归是什么?
线性回归就是线性的回归。线性是形容词,回归是本质。
我对于视觉记忆比较深刻,所以我们先上图。
这张图就是一个线性回归的实例,红色的点是实际的值,蓝色为估计的线性方程
我们回归的目的就是研究横坐标和纵坐标的关系,当然我们首先考虑这个关系是不是线性的,换句话说这些点关系可不可以用多项式表示
w, b 分别是直线的斜率和截据,也是线性回归最终需要获取的结果。
这张图是线性回归最简单的形式,一维,只有一个自变量,一个特征(Feature)
但是现实生活中,并不是所有的东西都只有一个特征,可能是好几个特征决定一个结果
例如,成绩总分是由所有学科的分数相加,各个学科就是不同的特征,总分就是最终想要的结果,并不能用单个成绩来预测总分
线性回归的公式是:
用成绩来说,语文x1,数学x2,英语x3三门学科成绩为输入,总分y为输出
那么可以得到这样的模型 (w1, w2, w3 均为1)
二. 线性回归模型评估
评估函数的建立
模型建立完成后,我们是不知道它是不是真的优秀。
想要知道模型是否优秀,就需要对模型进行评估度量。
评估是什么意思呢,就是预测值y_preddict和我们真实数据y的差距。通过这个值的大小来判断模型的好坏。
机器学习代码中经常看到的Loss损失值,就是我们的评估度量模型的函数,输入预测值和真实值,输出损失
在统计学中,有很多度量的方法,但是统计学几乎忘没了 T_T 要慢慢地多掌握些统计内容。
目前我接触到线性回归使用最多的是平方和误差
还是先通过直观的案例认识一下什么是平方和误差
平方和误差就是每个真实点到预测直线之间距离的平方之和,每个红点到蓝线的距离的平方 累加
平方和误差越大,那么真实值距离预测直线越远,那么这个模型就不好
所以我们希望这个平方和误差是越小越好的,这个思想就是最小二乘法
使用公式可以表示为
基础的损失模型建立后,可以加入正则化部分(regularization)P(w)
<