目录
正则化与交叉验证
正则化
模型选择的典型方法是正则化。正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。
正则化一般形式:
其中,第一项是经验风险,第二项是正则化项,λ≥0为调整两者之间关系的系数。
正则化项可以取不同的形式,例如在回归问题中,函数是平方损失函数,正则化可以是参数向量的L2,也可以是参数向量的L1范数
上面的式子中和分别表示参数向量的L2和L1范数
第1项的经验风险较小的模型可能比较复杂(有多个非0参数),这时第2项的模型复杂度会较大。
正则化的作用时选择结构风险与模型复杂度同时较小的模型。
从贝叶斯估计的角度看,正则化项对应于模型的先验概率,可以假设复杂的模型有较大的先验概率,简单的模型有较小的先验概率。L1、L2正则化分别对应于引入先验:参数符合拉普拉斯分布和高斯分布。在网上找了下具体的推导及介绍,见https://blog.csdn.net/zhuxiaodong030/article/details/54408786
交叉验证
交叉验证中,如果给定的样本数据充足,进行模型选择的一种简单方法是随机地将数据集切分为3部分,分布为训练集、验证集和测试集。训练集用来训练模型,验证集用于模型的选择,测试集用于最终对学习方法的评估。在学习到的不同复杂度的模型中,选择对验证集有最小预测误差的模型。由于验证集有足够多的数据,用它对模型进行选择也是有效的。
(1)简单交叉验证
首先随机的将已给定数据分为两部分,一部分作为训练集,另一部分作为测试集。然后训练集在各种条件下训练模型,从而得到不同的模型,在测试集上评价各个模型的测试误差,选出测试误差最小的模型。
(2)S折交叉验证
首先随机的将已给数据切分为S个互不相交的大小相同的子集;然后利用S-1各子集的数据训练模型,剩余的子集做测试模型,将这一过程对可能的S种选择重复进行;最后选出S次评测中平均测试误差最小的模型。
(3)留一交叉验证
S折交叉验证的特殊情形是S = N,称为留一交叉验证,往往在数据缺乏的情况下使用。这里,N是给定数据集的容量。
泛化能力
学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。现实中采用最多的办法是通过测试误差来评价学习方法的泛化能力。但如果测试数据集是有限的,很有可能由此得到的评价结果是不可靠的。统计学习理论试图从理论上对学习泛化能力进行分析。
如果学习到的模型是,那么用这个模型对未知数据预测的误差即为泛化误差
泛化误差反映了学习方法的泛化能力。事实上,泛化误差就是所学习到模型的期望风险。
泛化误差上界
学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的,简称为泛化误差上界。
性质:是样本容量的函数,当样本容量增加时,泛化上界趋于0;
是假设空间容量的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。
生成模型与判别模型
监督学习的任务就是学习一个模型,应用这一模型,对给定的输入预测相应的输出。这个模型的一般形式为决策函数:Y= f(X)
或者条件概率分布:P(Y|X)
监督学习方法又可以分为生成方法和判别方法。所学到的模型分别称为生成模型和判别模型。
生成模型:
由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型。
判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。
典型的生成模型:朴素贝叶斯法、隐马尔科夫模型
典型的判别模型:K近邻法、感知机、决策树、逻辑斯提回归模型、最大熵模型、支持向量机、提升方法和条件随机场
生成方法优点:可以还原出联合概率分布P(X,Y);学习收敛速度快;当存在隐变量时,可以用生成学习方法
判别方法优点:直接学习的是条件概率P(Y|X)或决策函数f(X),学习准确率更高;可以对数据进行各种程度上的抽象、定义特征并使用特征,可以简化学习问题。
分类问题
分类问题包括学习和分类两个过程。在学习过程中,根据已知的训练数据集利用有效的学习方法学习一个分类器;在分类过程中,利用学习的分类器对新输入实例进行分类。
评价分类器性能的指标一般是分类准确率。其定义是对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。
对于二分类,常用的评价指标是精确率与召回率。通常以关注的类为正类,其他类为负类。
TP----------将正类预测为正类
FN----------将正类预测为负类
TN----------将负类预测为负类
FP----------将负类预测为正类
精确率定义为:
召回率定义为:
F-1值:,
标注问题
标注也是一个监督学习问题,可以认为是分类问题的一个推广。其输入是一个观测序列,输出是一个标记序列或状态序列。
评价标注模型指标与评价分类模型的指标一样,常用的有标注准确率、精确率和召回率。
标注常用的统计学习方法:隐马尔科夫模型、条件随机场
标注问题在信息抽取、自然语言处理等领域被广泛应用。例如,自然语言处理中的词性标注,给定一个由单词组成的句子,对这个句子的每一个单词进行词性标注,即对一个单词序列预测其对应的词性标记序列。
回归问题
回归用于预测输入变量和输出变量之间的关系。回归问题的学习等价于函数拟合。回归学习最常用的损失函数是平方损失函数,在此情况下回归问题可以由著名的最小二乘法求解。