机器学习入门 ————》 一元及多元线性回归

1、线性回归(line Regression)

回归,指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析。通常Y1,Y2,…,Yi是因变量,X1、X2,…,Xk是自变量

• 回归分析(regression analysis)用来建立方程模拟两个或者多个变量之间如何关联
• 被预测的变量叫做:因变量(dependent variable),输出(output)
• 被用来进行预测的变量叫做: 自变量(independent  variable), 输入(input)
一元线性回归包含一个自变量和一个因变量
• 以上两个变量的关系用一条直线来模拟
• 如果包含两个以上的自变量,则称作多元回归分析 (multiple regression)

正相关  positive(斜率正)   负相关 negative (斜率负)

理解:就是得到很多点,求解一元二次方程组。但两点确定一条回归线,很多点就会产生很多回归线,哪一条线才是最佳的回归线呢?

 2、代价函数(Cost Function)或损失函数(Lost  Function)

用于判断最佳回归线,越小越好,拟合的越好。

平方是把误差都变为正。求和,除以m。除2,是因为后面求导,与平方的2约掉,就是为了方便,也不影响判断。

刚刚说有很多点就会产生很多回归线,那每个回归线就有一个斜率,一个损失函数值。

先看简单的,把截距去掉,损失函数少一个变量。

取不同斜率,有不同的损失函数值

      当斜率为1时,损失函数最小。

 

加上截距的变量

   

最小值在圈中心,好像银河系呃。

那怎么求斜率和截距得到最小的损失值呢?

3、梯度下降法(Gradient Descent)

初始值 斜率和截距会影响结果,得到的是局部最小值,可能是最小值,也可能不是。

迭代方法,右边斜率和截距更新不同步,会把损失值改变,从而得到错误的迭代。

学习率,太大,不能得到最佳的斜率和截距。太小迭代次数增多,时间加长。

代价函数是凸函数,只有一个极值,也就是最值。这个点就是最佳回归线的截距和斜率。

凸函数一个极值,非凸函数,多个极值。如果代价函数不是凸函数,那么狠可能不会得到最佳拟合的回归线

 

 多元线性回归

多元,多个特征,多个因变量

二元的。三元,四元无法画出这个平面了,称为超平面。

代价函数,梯度下降都是同样的算法。只不过是增加了几个因变量。

二元                                                           多元

标准方程法,多元线性回归

用矩阵的方式处理

 

 

当数据量小时,使用交叉印证法。

把数据集分为十份。标号,1-10.第一次。用1做测试集,2-10做训练集。第二次,用2做测试集,1,3-10做训练集,以此类推

再把十次得到的误差做平均

 

过拟合,训练集很好,测试集很差

防止过拟合

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大大U

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值