1、线性回归(line Regression)
回归,指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析。通常Y1,Y2,…,Yi是因变量,X1、X2,…,Xk是自变量。
• 回归分析(regression analysis)用来建立方程模拟两个或者多个变量之间如何关联
• 被预测的变量叫做:因变量(dependent variable),输出(output)
• 被用来进行预测的变量叫做: 自变量(independent variable), 输入(input)
• 一元线性回归包含一个自变量和一个因变量
• 以上两个变量的关系用一条直线来模拟
• 如果包含两个以上的自变量,则称作多元回归分析 (multiple regression)
正相关 positive(斜率正) 负相关 negative (斜率负)
理解:就是得到很多点,求解一元二次方程组。但两点确定一条回归线,很多点就会产生很多回归线,哪一条线才是最佳的回归线呢?
2、代价函数(Cost Function)或损失函数(Lost Function)
用于判断最佳回归线,越小越好,拟合的越好。
平方是把误差都变为正。求和,除以m。除2,是因为后面求导,与平方的2约掉,就是为了方便,也不影响判断。
刚刚说有很多点就会产生很多回归线,那每个回归线就有一个斜率,一个损失函数值。
先看简单的,把截距去掉,损失函数少一个变量。
取不同斜率,有不同的损失函数值
当斜率为1时,损失函数最小。
加上截距的变量
最小值在圈中心,好像银河系呃。
那怎么求斜率和截距得到最小的损失值呢?
3、梯度下降法(Gradient Descent)
初始值 斜率和截距会影响结果,得到的是局部最小值,可能是最小值,也可能不是。
迭代方法,右边斜率和截距更新不同步,会把损失值改变,从而得到错误的迭代。
学习率,太大,不能得到最佳的斜率和截距。太小迭代次数增多,时间加长。
代价函数是凸函数,只有一个极值,也就是最值。这个点就是最佳回归线的截距和斜率。
凸函数一个极值,非凸函数,多个极值。如果代价函数不是凸函数,那么狠可能不会得到最佳拟合的回归线
多元线性回归
多元,多个特征,多个因变量
二元的。三元,四元无法画出这个平面了,称为超平面。
代价函数,梯度下降都是同样的算法。只不过是增加了几个因变量。
二元 多元
标准方程法,多元线性回归
用矩阵的方式处理
当数据量小时,使用交叉印证法。
把数据集分为十份。标号,1-10.第一次。用1做测试集,2-10做训练集。第二次,用2做测试集,1,3-10做训练集,以此类推
再把十次得到的误差做平均
过拟合,训练集很好,测试集很差
防止过拟合