机器学习(三)线性回归原理

       上述考虑的问题,我们会得到一个式子,即:Y=θ1·X1+θ2·X2。但该线性公式没办法拟合所有的数据点,如下图。

       这里“θ0”作为偏置项,在二维平面里,即为截距。因此,上述公式“Y=θ1·X1+θ2·X2”即可修改为“Y=θ0+θ1·X1+θ2·X2”,将常数项“θ0”添加一个“X0”,即可用矩阵形式表示该公式。这里“X0”为常数“1”,没有实际含义。

       由于误差的存在,因此上述公式,Y(i)为真实值,θT·X(i)为预测值,E(i)为误差,我们希望误差项越小越好,即损失函数的结果越小越好。

       这里的误差,每个样本的误差值之间互不干涉,互相独立;同分布针对数据集来说,即来自同一处的数据,如同一个银行的数据。

       误差符合正态分布(高斯分布),但实际数据的分布不会完美符合正态分布,但这不影响误差整体符合这类规律。

       将(1)带入(2)的所得,即为X(i)和θ的组合,成为真实值Y(i)的可能性。我们希望可能性越大越好。

       这里可以转换成加法计算的原因是:我们并不关心L(θ)的极值是多少,我们只关心使得L(θ)取得极值的极值点是多少。类比一元二次方程,我们知道极值点X=?并不会受到两边同乘或者同除A的影响(仅为影响极值的大小)。因此,我们即可对误差进行化简。

       从而求解函数。这里X,θ,Y均为矩阵。这里,XT·X(矩阵X的转置·矩阵X)的目的,是为了将X转换为对称阵(方阵),X和Y均为已知量。

       上述虽然可以直接得到结果,但针对多数情况,我们需要学习的过程,梯度下降即为其中一种学习的方法。

       这里,由于数据样本X0和X1之间是独立的,因此优化的过程,是分别对θ0和θ1进行 优化。

       梯度方向是上升最快的方向,因此,这里的偏导结果应该取反,再加上原来θj的位置,即为更新后的位置。

       考虑数据样本的大小,批量梯度下降,每次都需要对所有样本数据求偏导在平均,因此计算量很大,梯度下降速度在数据集大的情况下慢。

       随机梯度下降由于每次找的样本是随机的,不一定是下降速度最快的方向,结果不可控。

       小批量梯度下降,综合了上述两种的优点,每次更新选区一小部分数据样本来计算(常用),受选择样本大小(batch包含样本数量的多少)的影响。

       上面公式的α即下面的学习率。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值