【02】台大机器学习L5 训练与测试

最新推荐文章于 2020-02-27 11:07:21 发布

Jeremy Anifacc

最新推荐文章于 2020-02-27 11:07:21 发布

阅读量364

点赞数

分类专栏：学习记录台大机器学习文章标签：学习笔记 C站台大机器学习

本文链接：https://blog.csdn.net/sinat_24727695/article/details/42146831

版权

学习记录同时被 2 个专栏收录

26 篇文章 0 订阅

订阅专栏

台大机器学习

8 篇文章 0 订阅

订阅专栏

【L5】Why？训练和测试

Recap and Preview 回顾
Effective Number of lines
Effective Number of Hypotheses
Break Point

1、回顾

前面4讲简单介绍了机器学习的基本分类，应用以及简单的分类算法以及PAC概率论与Learning的结合，

Learning 其实就是找到在一Hypo集H中找到合适的hypo g 使得 g = f（实际中的潜在模式Pattern），但是存在问题，你通过采样得到的训练集训练得到的g不一定适用于其他的样本，所以我们需要测试和验证。但是根据霍夫丁不等式-在足够多的数据集下和有限个Hypo及H个数下，采样得到的g 按概率PAC接近 f
（出错的概率也尽量要少）
上节遗留下的问题就是：实际中有限个数的Hypo集H是比较少的，一般都是无限的，就拿PLA二元分类的H集，它存在无数个的Hypo啊！那么如何解决这样的问题呢？
本讲简单介绍了，无限 —— 有限
图2

数据学习流程

采样样本集训练（g）得到的结果误差Ein要小，=0 最好
测试集得到的结果-在Hypo g下（Eout）与训练集得到的结果误差很接近
图3
2个问题：
1 能否确保测试的与采样训练的结果接近 Eout(g) = Ein(g)
2 能否使得Ein(g)-= 0, 训练的误差最小化？
那么Hypo集H中的几何个数对这两个问题能否有帮助呢？

图4

图5

【Note】
M小，出错的概率小，但是g的选择性就少了（从H中得到）
M大，出错的概率大，但是g的选择多！
所以，M的值比较重要。
无限——）以有限mh来替代
图6

2、Effective Numbers of lines 有效数

【围绕M的讨论】
对于上面M的大小，对Learning存在一定的障碍，如何稍微清除这个障碍呢？下面就对M展开讨论了：
图7

BAD events 是什么样的？Ein-Eout的差距> 常数值
让算法去训练，出错的概率还是存在的
最不好的情况：所有的BAD events（选到不好的数据集）都没有重叠性。
其实，这个【Non-overlapping】在现实中很少存在，所以大多都是层叠的。
图8

Overlapping Examples

2D空间中
1、1个inputs（点）在一个平面上，那么分类线有几种情况？ 2种
图9

2、2个inputs呢？4种
图10

3、3个inputs呢？2^3种？是6种
图11

4、4个inputs？最多14种，不是2^4方
图12

Sum
总的来说，M不是幂次方的数量级了，而是比之小的数值。这个就给我们Learning带来了方便。
图13

3、Effective Number of Hypotheses

Hypo集合H中有用有效的数目

Mini-Hypo 简单的假设二分类（Dichotomies）

1、【Dichotomy】从H中任意选取一个方程h，让这个h对D进行二元分类，输出一个结果向量，比如对4个点进行预测，输出{o,o,o,×}，这样的一个输出向量我们称它为一个dichotomy。就是二分后的结果。
图14
2、【Growth Function】成长函数

与inputs个数N相关的函数
图15
不同的Growth 函数
图16
Mini Sum
图17

所以最好mh(H)为二项式而不是指数的形式，这样错误的概率就比较小了！

4 临界点Break Point

这个临界点Break Point指的是使得Mh不再是2^N(指数形式)的第一个点，也就是突破指数形式束缚的第一个点（人可以找到自己的那个Break Point就自由了，现在的我们大多生活在束缚之中，金钱权利，欲望如果成指数形式的增长，那么人就会变成欲望的奴隶，活得愚蠢至极。）

四个BPoints
图18

SUM

致谢

1、感谢台大林轩田老师及其团队

2、感谢此机器学习笔记的博主参考笔记

Jeremy Anifacc

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【02】台大机器学习L5 训练与测试

【L5】Why？训练和测试Recap and Preview 回顾Effective Number of linesEffective Number of HypothesesBreak Point1、回顾前面4讲简单介绍了机器学习的基本分类，应用以及简单的分类算法以及PAC概率论与Learning的结合，Learning 其实就是找到在一Hypo集H中找到合适的
复制链接

扫一扫