声明:
1.本文章为参考相关书籍和前辈经验所写,只为个人学习专用。
2.若有内容错误之处请大家留言改进。
3.若有引用不当之处,请告知本人,会进行相关处理。
泛化能力
泛化误差
学习方法的泛化能力(generalization ability)是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。现实中采用最多的方法是用测试数据得出的测试误差来评价学习方法的泛化能力。因为测试数据集是有限的,很可能得到的评价结果是不可靠的。
首先给出泛化误差的的定义。如果学到的模型是 f^ ,那么用这个模型对未知数预测的误差即为泛化误差(generalization error)
Rexpf^=Ep[L(Y,f^(x))]=∫x∗yL(y,f^(x))P(x,y)dxdy
泛化误差反映了学习方法的泛化能力,如果一种方法学习的模型比另一种方法学习的模型有更小的泛化误差,那么这种方法就更有效。事实上,泛化误差就是所学习到的模型的期望风险。泛化误差上界
学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的,简称为泛化误差上界(generalization error bound)。具体来说,就是通过比较两种学习方法的的泛化误差上界的大小来比较它们的优劣。
泛化误差上界的性质:它是样本容量的函数,当样本容量增加时,泛化上界趋于0;它是假设空间容量(capacity)的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。
生成模型 和判别模型
监督学习的任务就是学习一个模型,应用这一模型,对给定的输入预测相应的输出。这个模型的一般形式为决策函数:
或者条件概率分布:
监督学习方法又可以分为生成方法(generative approach)和判别方法(discrimination approach)。所学习到的模型分别称为生成模型(generalization model)和判别模型(discrimination model)
生成方法:由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(X/Y)作为预测的模型,即生成模型:
典型模型:朴素贝叶斯法和隐马尔科夫模型
特点:可以还原出联合概率分布P(X,Y),学习收敛速度更快,即当样本容量增加时,学到的模型可以更快的收敛于真实模型;当存在隐变量时,仍可以用生成方法学习,此时判别方法不能用。
判别方法:由数据直接学习决策函数f(X)或者条件概率分布P(X/Y)作为预测的模型,判别方法关心的是对给定的输入X,应该预测什么样的输出Y。
典型模型:K近邻法、感知机、决策树、逻辑斯谛回归模型、最大熵模型、支持向量机、提升方法和条件随机场等。
特点:判别方法直接学习的是条件概率P(X,Y)或决策函数f(x),直接面对预测,往往学习的准确率更高;由于直接学习P(X/Y)或f(x),以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。
分类问题
分类问题包括学习和分类两个过程。在学习过程中,根据已知的训练数据集利用有效的学习方法学习一个分类器