目录
一、一些概念定义
如果分辨宝可梦和数码宝贝?
通过观察我们发现数码宝贝的绘画风格更复杂:
所以我们设计了一个函数:
其中|H|为所有候选的functions
定义一个损失函数:
其中D为被给的资料,y^就是对应正确的值
我们的理想状态是我们知道所有的宝可梦和数码宝贝,并且获得了一个让loss最小的h all让我们更好的分辨宝可梦和数码宝贝。但是现实是我们只有训练集 也就是一小部分。我们从训练集得到的h数据希望在所有数据上表现得很好。让现实和理想更接近
二、例子讲解
同样都是选了200个资料,当他们在训练资料上表现最好的时候不一定在所有资料上表现最好
我们想要的是什么?我们想要的是现实和理想更接近那么就要满足以下公式
满足上面的公式,我们肯定必须要好的train资料,所以我们要计算获得坏的Dtrain资料的概率:
其中坏掉的几率公式为:
其中大N为训练资料中样本的数目
我们想要让这个概率变小,就要让N变大|H|变小
当我们把N调大时
选到坏的训练资料概率明显下降 ,但是说我们做实际任务时,训练资料不是我们可控的。平时我们可以通过这个式子算出我们希望的N是多大
当我们把|H|调小时
当我们把|H|调小是,确实能缩小现实与理想的差距,但是|H|太小时!你可能会理想崩塌,就是你找出来理想的值有可能就不是最理想的了
我们陷入了两难,怎样让熊和鱼掌兼得呢?下一章再说