【统计学习方法概论】

最新推荐文章于 2024-10-16 18:47:39 发布

崽崽张不是奶t

最新推荐文章于 2024-10-16 18:47:39 发布

阅读量267

点赞数

分类专栏：统计学习方法文章标签：学习机器学习深度学习

本文链接：https://blog.csdn.net/Nicole_d/article/details/125929780

版权

统计学习方法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

监督学习方法
1.生成方法
学习联合概率分布P(X,Y)求出条件概率分布作为预测的模型即生成函数P(Y|X)=P(X,Y)/P(X)
2.判别方法
直接学习P(Y|X)或决策函数f(X)作为预测的模型即判别模型

模型评估
训练误差：在训练集上的平均损失(训练得到模型)
验证误差：再验证机上的平均损失(挑选模型)
测试误差(泛化误差)：在测试集上的平均损失(评价模型)
有限个数据集上，每个模型的泛化误差都有一个上界，若能接受该上界则该模型可用
一味降低训练误差可能会导致数据过拟合(模型参数过多，对已知数据准确率高，未知数据的预测准确率低)，泛化能力差
(1)确定模型复杂度即多项式的次数
(2)按照经验风险最小化的策略求解参数即多项式的系数

模型选择
损失函数:0-1损失函数、平方损失函数、绝对值损失函数、对数损失函数
期望风险：模型在数据集上的平均损失
经验风险：模型在训练集上的平均损失
结构风险：经验风险+正则化项（正则化项用于评估模型复杂度(非零参数的多少)）
1.正则化
选择结构风险最小的模型
2.交叉验证
(1)简单交叉验证：将数据分为训练集和测试集，在训练集上训练出不同的模型，在测试集上计算出各模型的测试误差，选择测试误差最小的模型
(2)S折交叉验证：将数据分为S个互不相交的大小相同的子集，S-1个作为训练集，利用余下的作为测试集，将这一过程对可能得S种选择重复进行即每个子集均充当一次测试集，最后选出平均误差最小的模型
(3)留一交叉验证：S折交叉验证的特殊情况，即令S等于数据集的容量

监督学习的应用分类
1.分类问题
根据训练集学习分类器，利用分类器对新的数据进行分类，输出变量取有限个离散值
评价指标：精确率P(预测正确的个数/总预测个数)、召回率R(预测争取的个数/总真实数据个数)、F1值
2.标注问题
对输入序列进行标记
3.回归问题
输出连续值