【统计学习课程】4 监督学习

本文介绍了监督学习的概念,包括模型分类(决策模型与概率模型、判别模型与生成模型)、ERM(经验风险最小化)及其问题,以及统计学习理论中的Hoeffding不等式和VC维。此外,还讨论了改进ERM的SRM(结构风险最小化)和实际应用中的数据集与模型设计考虑因素。
摘要由CSDN通过智能技术生成

总结自刘东老师《统计学习》课程,教材选用周志华老师《机器学习》西瓜书
每节都给了小结,可以快速了解每节内容

什么是监督学习

此前章节所述的回归、分类、概率密度估计问题,都是(全)监督学习的例子。监督学习的过程主要分为两步:训练和推演。

模型分类

决策模型 vs 概率模型

这就是之前介绍所有方法时,一般的回归/分类方法与贝叶斯方法的区别。
一般的方法,求得的解是一个固定的映射
y ^ = f ( x ) \hat{y}=f(x) y^=f(x)

如果 y ^ \hat{y} y^可以取连续值,那么就是一个回归问题,如果只能取离散值就是分类问题。对问题如此建模,即利用了决策模型
贝叶斯方法则是对输入、输出以及参数都赋予一个概率密度函数,需要求的是在某个输入 x x x条件下,输出 y ^ \hat{y} y^的概率 q ( y ^ ∣ x ) q(\hat{y}|x) q(y^x)。利用贝叶斯方法对问题建模,利用的就是概率模型

判别模型 vs 生成模型

判别模型,即基于训练样本,估计某一个输入所对应的输出值,即求解
y = f ( x )    o r    q ( y ∣ x ) y=f(x)\;or\;q(y|x) y=f(x)orq(yx)

而生成模型反之,需要估计某一个输出所对应的输入的值,
x = f ( y )    o r    q ( x ∣ y ) x=f(y)\;or\;q(x|y) x=f(y)orq(xy)

对于具有连续输入和输出的回归问题,以上两者显得比较自然,甚至可能可以互逆。因此,这两类模型对于分类问题更具有讨论的意义。
通常,求解一个生成模型需要先得到判别模型,毕竟这个模型生成的结果应当能自己判断对错才合理。
判别模型一般不需要很大的训练集就可以得到,且表现很好;生成模型则需要更大的训练集来保证收敛。

ERM

损失函数

评估一个模型的优劣,我们可以用损失函数来判断。损失函数的大小,总是和模型对训练样本估计的结果与真值的差的大小有关。
最小二乘法中,我们用到的损失函数即
( y i − f ( x i ) ) 2 (y_i-f(x_i))^2 (yi

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值