1、什么是过拟合,欠拟合
过拟合:当学习器把训练样本学得“太好”的时候,很可能已经把训练样本自身的一些特点当做了所有潜在样本都具有的一般性质,这样就会导致泛化性能下降。
欠拟合:对训练样本的一般性质尚未学好。
欠拟合的解决方法:在决策树学习中扩展分支,在神经网络学习中增加训练轮数等。
2、机器学习的模型选择:对候选模型的泛化误差进行评估,然后选择泛化误差最小的那个模型,然而我们无法直接获得泛化误差,而训练误差又由于过拟合现象的存在而不适合作为标准,那么就需要对模型进行评估和选择。
评估方法:引入测试集。将数据集分为训练集和测试集:留出法(hold out):将数据集划分为两个互斥集合,交叉验证法,自助法。对泛化性能进行评估需要一个评价标准,即性能度量。因此模型的好坏是相对的,取决于算法和数据,还决定于任务需求。
3、机器学习中性能比较很复杂,并不单单是比较性能度量值的大小:
(1)希望比较的是泛化性能,然而通过试验评估方法获得的是测试集上的性能,两者对比结果未必相同。
(2)测试集上的性能与测试集本身的选择有很大关系,包括测试集的大小,测试样例的不同。
(3)机器学习算法本身具有随机性,即使用相同的参数在同一测试集上多次运行,其结果也会有不同。
那么引出性能比较的几种方法。
4、解释机器学习算法泛化性能的工具:偏差-方差分解
对测试样本,令
为
在数据集中的标记,
为
的真实标记,
为训练集
上学的模型
在
上的预测输出。
则对算法的期望泛化误差进行分解:
偏差为期望输出与真实标记的差别:
方差样本数相同的不同训练集产生的方差:
为噪声:
其中为学习算法的期望预测:
偏差度量了学习算法的期望预测与真实结果的偏差程度,即刻画了学习算法本身的拟合能力;
方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的的影响;
噪声表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。
偏差-方差分解说明:泛化性能是由学习算法的能力,数据的充分性以及学习任务本身的难度所共同决定的。
5、线性回归时,利用最小二乘法可解出多个,选择哪个呢?常见的做法是引入正则化(即常见的降低过拟合方法)。
线性回归模型:预测值逼近真实标记
,即:
。
6、对数几率回归:一种分类学习方法。用线性回归模型的预测结果去逼近真实标记的对数几率,即:
可变形为:
対率回归模型最大化对数似然,即令每个样本属于其真实标记的概率越大越好:
其中,
则:等价为最小化:
上式根据凸优化理论,如梯度下降法、牛顿法等可求到其最优解,得到一个关于的迭代更新公式。
7、线性判别分析LDA:Fisher判别分析:将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例的投影点尽可能远离。
当两类数据同先验,满足高斯分布且协方差相等时,LDA可达到最优分类。
8、多分类学习的基本思路:对问题进行拆解,然后为拆出的每个二分类任务训练一个分类器;测试时,对这些分类器的预测结果进行集成以获得最终的多分类结果。
拆分:一对一,一对其余,多对多。
一对一:将N个类别两两配对,产生个分类器,可得到
个分类结果,最终结果通过投票产生。
一对其余:将一个类的样例作为正例,其他类的样例作为反例,产生N个分类器,在测试时若有仅有一个分类器预测为正类,则对应的类别标记作为最终分类结果。若有多个分类器预测为正类,则考虑各分类器的预测置信度,选择置信度最大的类别标记作为分类结果。
时间和存储花销两方面分析一对一和一对其余。
9、若不同类别的训练样例数目差别很大,则出现类别不平衡问题。
对数几率函数: