【统计学习方法概论】

监督学习方法
1.生成方法
学习联合概率分布P(X,Y)求出条件概率分布作为预测的模型 即生成函数P(Y|X)=P(X,Y)/P(X)
2.判别方法
直接学习P(Y|X)或决策函数f(X)作为预测的模型即判别模型

模型评估
训练误差:在训练集上的平均损失(训练得到模型)
验证误差:再验证机上的平均损失(挑选模型)
测试误差(泛化误差):在测试集上的平均损失(评价模型)
有限个数据集上,每个模型的泛化误差都有一个上界,若能接受该上界则该模型可用
一味降低训练误差可能会导致数据过拟合(模型参数过多,对已知数据准确率高,未知数据的预测准确率低),泛化能力差
(1)确定模型复杂度即多项式的次数
(2)按照经验风险最小化的策略求解参数即多项式的系数

模型选择
损失函数:0-1损失函数、平方损失函数、绝对值损失函数、对数损失函数
期望风险:模型在数据集上的平均损失
经验风险:模型在训练集上的平均损失
结构风险:经验风险+正则化项(正则化项用于评估模型复杂度(非零参数的多少))
1.正则化
选择结构风险最小的模型
2.交叉验证
(1)简单交叉验证:将数据分为训练集和测试集,在训练集上训练出不同的模型,在测试集上计算出各模型的测试误差,选择测试误差最小的模型
(2)S折交叉验证:将数据分为S个互不相交的大小相同的子集,S-1个作为训练集,利用余下的作为测试集,将这一过程对可能得S种选择重复进行即每个子集均充当一次测试集,最后选出平均误差最小的模型
(3)留一交叉验证:S折交叉验证的特殊情况,即令S等于数据集的容量

监督学习的应用分类
1.分类问题
根据训练集学习分类器,利用分类器对新的数据进行分类,输出变量取有限个离散值
评价指标:精确率P(预测正确的个数/总预测个数)、召回率R(预测争取的个数/总真实数据个数)、F1值
2.标注问题
对输入序列进行标记
3.回归问题
输出连续值

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值