https://www.youtube.com/watch?v=D_S6y0Jm6dQ&list=PLJV_el3uVTsPy9oCRY30oBPNLCo89yu49&index=5
版权他的。
training error高说明underfitting
validation error高说明overfitting
这个都知道
也知道怎么解决。但是错误哪来的呢。
建模对吧,找到最佳的拟合模型(参数)对吧,那这就是个概率论的问题。
将真正的正确的最佳的模型作为一个F,那么我们自己各种找模型,就是或多或少偏一点,就像下图的样本点。
所以本质上,模型也是个随机变量。
那么也就有方差和平均值。
这两个反映了该模型被拟合出错的情况。概率,大家的效果。
你的模型建立于你的采样,采样是有噪声的。你采十个和我采十个得到的不是一模一样的。大家都不知道真正的准确的样本点长什么样。所以有噪音的。
第一次十个点,建立模型一。
第二次十个点,建立模型二。
。。。
第5000次十个点,建立模型5000.
你会发现,模型其实是个随机变量。
下图中的红色线就是5000个模型。
左图复杂模型
有图简单模型
可以看得出来,他们都是在某个平均模型上,有一个偏移。
模型复杂,平均模型是最优模型(bias基本没有)。这说明,虽然我们大概知道最优的模型是什么样,但是由于样本点少,我们自由发挥了很多。
模型简单,平均模型是冒名顶替的模型(很大的bias),虽然我们很老实的没有自由发挥,我们被冒名顶替的欺骗了,所以我们整体都很偏,不过由于老实,我们偏的很集中。可以看下图二中左下的large bias
而模型越简单是左边的分布。他可能变化不大,所以方差小variance,大家都错的一样,错到了一个模型上限的最优值(不同于局部最优)。其均值点到那,全世界错到哪。所以模型简单的话,其错误来源于模型本身带来的bias不准。
相反,模型复杂,那么其模型曲面千变万化,可以表示各种模型,能各种扭。比方说是个x^5+x^4+x^100. 其分布就是右面的,你采集到的样本稍微有点噪音,他就扭到天边去了。但是他的平均值准啊,比方说全世界都用复杂模型,最后全世界一取平均值,好的,最优解。醉意虽然人家浪,但是人家有谱。
欠拟合要不得,过拟合想办法解决。
就是说有个问题,为什么?怎么算的。油管没有证明只是实验演示。