机器学习笔记--误差项及梯度下降

误差项定义

        假定拟合的平面:h_{\theta }(x)=\theta _{0} + \theta _{1}x_{1} + \theta _{2}x_{2},其中\theta _{0}是偏置项,控制平面的上下浮动。实际代码中,可能添加一列全1的列,便于矩阵计算:h_{\theta }(x)= \sum_{i=0}^{n}\theta _{i}x_{i} = \theta ^{T}x

        真实值和预测值之间存在误差\varepsilon,对于每个样本:y^{i} = \theta ^{T}x^{i} + \varepsilon ^{i}

特点:

        误差是独立且具有相同的分布,并且服从均值为0、方差为\sigma ^{2}高斯分布

①误差服从高斯分布:

p(\epsilon ^{i}) = \frac{1}{\sqrt{2\pi }\sigma } e^{-\frac{(y^{i}-\theta ^{T}x^{i})^{2}}{2\sigma ^{2}}}

②预测值与误差:

\varepsilon ^{i} = y^{i} - \theta ^{T}x^{i}

由①②有:

p(y^{i}|x ^{i},\theta ) = \frac{1}{\sqrt{2\pi }\sigma } e^{-\frac{(y^{i}-\theta ^{T}x^{i})^{2}}{2\sigma ^{2}}}

        上式即为,找一个\theta,它与x^{i}组合完之后,与真实值y^{i}越接近越好,即它俩组合完后成为真实值的可能性越大越好。 

(以贷款举例)

独立:张三和李四一起来贷款,但他俩不认识、没关系

同分布:他俩都来到同一家银行

高斯分布:银行可能多给、可能少给,但大多数情况下这个浮动不会太大,极小的情况下浮动会比较大

似然函数

累乘前提:独立同分布;希望用的数据越多,结果越准确。通过似然函数(不关心似然函数值),找到极大值点

推导得出 最小二乘法

目标函数求解:

tips

X^{T}X必然为一个对称阵;

②若A是对称阵,则\partial (\theta ^{T}A\theta) = 2A\theta

梯度下降

        机器学习常规套路:是交给机器一堆数据,然后告诉它什么样的学习方式是对的(目标函数),然后让它朝着这个方向去做。

        学习过程中的优化:要一步步的完成迭代。

更新参数:

① 找到当前最合适的方向

② 走一小步

③ 按照方向和步伐去更新参数

 批量梯度下降:容易得到最优解,但由于每次考虑所有样本,速度很慢。

{\theta _{j}}' = \theta _{j} + \frac{1}{m}\sum_{i=1}^{m}(y^{i}-h_{\theta }(x^{i}))x_{j}^{i}i 表示第 i 个数据,j 表示第 j 列

随机梯度下降:每次找一个样本,迭代速度快,但不一定每次都朝着收敛方向。

{\theta _{j}}' = \theta _{j} + (y^{i}-h_{\theta }(x^{i}))x_{j}^{i}

小批量梯度下降:每次更新一小部分数据来算。

{\theta _{j}}' = \theta _{j} + \alpha \frac{1}{10}\sum_{k=1}^{i+9}(y^{k}-h_{\theta }(x^{k}))x_{j}^{k}

  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值