小闹钟的机器学习笔记(9)

本次学习内容为cs229第九节

偏差-方差权衡

如果用一条直线去拟合非线性的数据,可能会表示地不太令人满意,这种现象称为欠拟合【之前提到过】,我们会说这种算法偏差很高。
如果用四次多项式去表示一个二次的数据,就会出现过拟合,或者是这个算法的算法很高,算法会拟合出了数据中一些奇怪的规律或者怪异的属性。

- 线性分类器

这里写图片描述

我们要强制logistic回归算法输出0或1作为类标签。这个分类器的作用是按照某种规律选出0或1的标签。
比如说我们现在有m个样本构成的集合,并且数据是独立分布的且符合同一个概率分布

这里写图片描述

最后一项表示被假设错误分类的训练样本之和,当这一项除以m时,表示的就是被你的假设错误的分类训练样本所占的比例,被定义为训练误差,也称为风险。

经验风险最小化ERM

所谓的经验风险最小化ERM就是选择参数值使得训练误差最小。logistic回归和SVM都可以当作这个算法的近似。

这里写图片描述

这个式子被定义为对于取样得到的一个新的由某个分布D生成的样本,假设对该样本错误分类的概率。

  1. 联合界引理

定义有k个事件,它们之间可能相互独立也可能不。

这里写图片描述

这个经常作为概率论的公理出现,称为求和定理,在学习理论中我们称为联合界。

2. Hoeffding不等式

假设有m个独立分布的变量,它们均服从伯努利分布。

这里写图片描述

这里写图片描述

这个式子表示我们希望用这样的平均式去估计变量的均值。
Hoeffding不等式定义为:

这里写图片描述

表示估计的phi值和真实的phi值之间的差异大于gamma概率不会超过某个特定上界。
这个上界会随着m的增长指数下降。

ERM的性质

令H为一个包含k个假设的假设类,这k个函数每个都是映射。
ERM会对于给定的训练集,从k中选一个使得训练误差最少。

这里写图片描述

我们要证明一般误差有上界。训练误差是一个对一般误差很好的近似,如果训练误差最小这意味着我们的一般误差也不会很大。
首先我们任意选定一个假设,并且只考虑这个假设。

这里写图片描述

zi表示第i个样本是否被错误分类,它取0或1,是一个伯努利随机变量。
对于给定的假设hj,当我利用分布D生成一个样本时,假设对该样本错误分类的概率,根据定义,它应该等于假设hj的一般误差,即:

这里写图片描述

这里写图片描述

这是m个独立同分布的伯努利变量的平均值,每个变量的均值都是hj的一般误差。

根据Hoeffding不等式,训练误差和一般误差之间的差异的概率满足:

这里写图片描述

这证明对于给定的假设,我的训练误差会以很大的概率近似一般误差。
如果我的训练集合很大,那么训练误差和一般误差差距很大的概率就会很小。
证明对于整个假设类H,我们的一般误差取很大值的概率存在上界。

这里写图片描述

用1减去两边。

这里写图片描述

该结论表明,在不小于某个概率的情况下,对于H中所有的假设hh,训练误差与一般误差的差距都会在一定范围内。
这个结果被称为一致收敛。
对于无限假设类的情况这个结果并不适用。

一个变化:

给定了gamma和犯错概率,需要多大的训练集合来达成满足的界。

这里写图片描述

称之为样本复杂度界。意味着到达一个错误的界,你需要多大的训练样本。它可以在我们使用机器学习解决问题时,指导我们选择合适的样本数。

在计算机学习中,对于所有的k,logk不会超过30。

另一种情况是给定m和犯错概率,求解gamma。

这里写图片描述

令H为一个包含k个假设的有限假设类,在1-delta的概率下,我们有:

这里写图片描述

通过切换到一个更大的假设类,第一项会减小,第二项会增大,通常称为方差偏差权衡
第一项对应学习算法的偏差,第二项对应着假设的方差,它表示你的假设类对数据的拟合有多好。随着拟合复杂度的提升,由于方差偏差权衡的存在,你会发现误差会先下降再上升,前半段误差是因为欠拟合,后半段是因为过拟合。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值