欠拟合:高偏差
欠拟合是指在训练数据中不能得到我们想要的低误差,在未知环境里预测能力不足的表现。
过拟合:高方差
过拟合则是指的训练误差和测试误差之间的差距太大,对已有的数据(train data)预测准确度非常高,但是对于新的数据(也就是test data)准确性相当低。
正则化,指的是通过修改学习算法来降低训练之后程序在未知数据上的误差而非降低训练时候的误差,也就是说在优化cost function时会考虑模型的复杂度,模型复杂度越高,过拟合程度也就越高,相应的,在cost function中的惩罚项也就最高,这时的cost function叫做风险函数risk function,algorithm进行优化的函数叫做结构风险最小化。
容量指的是训练数据的质量和数量。意思是,你训练程序分类饮料的时候,你知道有一二十种饮料,但是提供的数据全部都是可乐的数据,这样的数据一万个和一个都没有什么区别。而你提供了一万瓶饮料但是每一瓶都不一样,这意味着每个数据都只有一个点,根本无法找出来合适的数据来分析相同点与不同点,这也没什么用处。所以,容量要匹配任务的复杂度,你想要详细分类每一个饮料的数据,根据它的颜色、饮料升数、瓶子长短之类的方面分类时,你需要做的就是把所有的饮料的详细数据全部标出来给程序学习,但是当你只需要分一下饮料和矿泉水的差异的时候,你所需要的也只是降低数据量,给程序知道水和饮料的差异。当然,对于训练来说,不存在数据量越多越好,这里有一个最佳容量的平衡点,在这个点上,程序训练的效率最高。
参考文献:
包子教你机器学习 篇二:大数据处理的基本思路