【L5】Why? 训练和测试
- Recap and Preview 回顾
- Effective Number of lines
- Effective Number of Hypotheses
- Break Point
1、回顾
前面4讲简单介绍了机器学习的基本分类,应用以及简单的分类算法以及PAC概率论与Learning的结合,
-
Learning 其实就是找到在一Hypo集H中找到合适的hypo g 使得 g = f(实际中的潜在模式Pattern),但是存在问题,你通过采样得到的训练集训练得到的g不一定适用于其他的样本,所以我们需要测试和验证。但是根据霍夫丁不等式-在足够多的数据集下和有限个Hypo及H个数下,采样得到的g 按概率PAC接近 f
(出错的概率也尽量要少)
-
上节遗留下的问题就是:实际中有限个数的Hypo集H是比较少的,一般都是无限的,就拿PLA二元分类的H集,它存在无数个的Hypo啊!那么如何解决这样的问题呢?
本讲简单介绍了,无限 —— 有限
图2
数据学习流程
- 采样样本集训练(g)得到的结果误差Ein要小,=0 最好
-
测试集得到的结果-在Hypo g下(Eout)与训练集得到的结果误差很接近
图3 -
2个问题:
1 能否确保测试的与采样训练的结果接近 Eout(g) = Ein(g)
2 能否使得Ein(g)-= 0, 训练的误差最小化?
那么Hypo集H中的几何个数对这两个问题能否有帮助呢?
图4
图5
【Note】
M小,出错的概率小,但是g的选择性就少了(从H中得到)
M大,出错的概率大,但是g的选择多!
所以,M的值比较重要。
无限——)以有限mh来替代
图6
2、Effective Numbers of lines 有效数
【围绕M的讨论】
对于上面M的大小,对Learning存在一定的障碍,如何稍微清除这个障碍呢?下面就对M展开讨论了:
图7
- BAD events 是什么样的?Ein-Eout的差距> 常数值
- 让算法去训练,出错的概率还是存在的
- 最不好的情况:所有的BAD events(选到不好的数据集)都没有重叠性。
其实,这个【Non-overlapping】在现实中很少存在,所以大多都是层叠的。
图8
Overlapping Examples
- 2D空间中
1、1个inputs(点)在一个平面上,那么分类线有几种情况? 2种
图9
2、2个inputs呢?4种
图10
3、3个inputs呢?2^3种?是6种
图11
4、4个inputs?最多14种,不是2^4方
图12
- Sum
总的来说,M不是幂次方的数量级了,而是比之小的数值。这个就给我们Learning带来了方便。
图13
3、Effective Number of Hypotheses
Hypo集合H中有用有效的数目
Mini-Hypo 简单的假设 二分类(Dichotomies)
1、【Dichotomy】从H中任意选取一个方程h,让这个h对D进行二元分类,输出一个结果向量,比如对4个点进行预测,输出{o,o,o,×},这样的一个输出向量我们称它为一个dichotomy。就是二分后的结果。
图14
2、【Growth Function】成长函数
-
与inputs个数N相关的函数
图15 -
不同的Growth 函数
图16 -
Mini Sum
图17
所以最好mh(H)为二项式而不是指数的形式,这样错误的概率就比较小了!
4 临界点Break Point
这个临界点Break Point指的是使得Mh不再是2^N(指数形式)的第一个点,也就是突破指数形式束缚的第一个点(人可以找到自己的那个Break Point就自由了,现在的我们大多生活在束缚之中,金钱权利,欲望如果成指数形式的增长,那么人就会变成欲望的奴隶,活得愚蠢至极。)
- 四个BPoints
图18
SUM
致谢
1、感谢台大林轩田老师及其团队
2、感谢此机器学习笔记的博主 参考笔记