目录
1.机器学习的一些概念:
- 有监督vs无监督
根据学习样本是否具有标记信息,学习任务分为有监督学习(样本有标记,比如分类任务和回归任务)和无监督学习(样本没有标记,比如聚类)
- 泛化能力
学习的模型适用于新样本的能力。机器学习的目标是使得学习到的模型很好的适用于‘新样本’而不仅仅是训练样本。在新样本上的误差称为泛化误差,在训练样本上的误差称为训练误差或者经验误差。
- 过拟合vs欠拟合
过拟合:学习器将训练样本自身的特点当作潜在样本都会具有的特点,从而导致泛化性能下降。只能缓解不能避免。增加正则化项等方式。
欠拟合:学习器对于训练样本的一般性质尚未学好,导致泛化性能不佳。解决办法:在决策树学习中拓展分枝,在神经网络中增加论数等
- 方差vs偏差
为x在数据集上的标记,y为x在数据集上的真实标记。
为训练集D上学到的模型f在x上的预测输出。
学习算法的期望预测:
实验样本数相同的不同训练集产生的方差为:
噪声:
期望输出与真实标记的差别称为偏差:
对泛化误差进行分解:
即:泛化误差等于偏差、方差以及噪声之和。
【偏差】度量算法的期望预测与真实结果的偏离程度。刻画算法本身的拟合能力。
【方差】刻画同样大小的训练集变动导致的学习性能的变化。刻画数据扰动造成的影响。
【噪声】表达当前任务上任何学习算法所能到到的期望泛化误差的下界。刻画学习问题本身的难度。
上述偏差-方差分解说明,泛化性能由学习算法的能力、数据从分析以及学习任务本身的难度共同决定。给定学习任务后,为了泛化性能尽可能的好,需要使得偏差较小(即可以充分拟合数据),方差较小(即使的数据扰动参数的影响较小)
偏差-方差窘境:
- 交叉验证
将数据集划分为K个大小相似的互斥子集,尽可能保证每个子集上数据分布的一致性。每次用K-1个作为训练集,另外一个作为测试集。这样可以获得K组训练/测试集,进行K次训练和测试。称为K折交叉验证
为了减少因为样本划分不同而引入的差别,K折交叉验证通常随机的使用不同的划分重复p次,称为p次K折交叉验证。
与留出法相比