统计学习方法-第1章-绪论

统计学习方法-第1章-绪论

统计学习分类

分类标准类型
基本分类监督学习、无监督学习、强化学习
按模型分类概率模型、非概率模型
(在监督学习中,概率模型是生成模型,非概率模型是判别模型)
按算法分类在线学习、批量学习
按技巧分类贝叶斯学习、核方法

统计学习方法三要素

模型

在监督学习过程中,模型就是所要学习的条件概率分布或者决策函数

 假设空间 $\mathcal { F }$输入空间 $\mathcal { X }$输出空间 $\mathcal { Y }$参数空间
决策函数变量变量
条件概率分布随机变量随机变量

策略

损失函数与风险函数

损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。

  1. 损失函数(loss function)或代价函数(cost function)

    损失函数定义为给定输入$X$的预测值$f(X)$真实值$Y$之间的非负实值函数,记作$L(Y,f(X))$

  2. 风险函数(risk function)或期望损失(expected loss)

    这个和模型的泛化误差的形式是一样的

    模型 $f(X)$ 关于联合分布 $P(X,Y)$ 的平均意义下的损失(期望损失),但是因为$P(X,Y)$是未知的,所以前面的用词是期望,以及平均意义下的

    这个表示其实就是损失的均值,反映了对整个数据的预测效果的好坏,$P(x,y)$转换成$\frac {\nu(X=x, Y=y)} {N}$。

  3. 经验风险(empirical risk)或经验损失(empirical loss)

    模型 $f$ 关于训练样本集的平均损失。根据大数定律,当样本容量 N 趋于无穷大时,经验风险趋于期望风险

  4. 结构风险(structural risk)

    $J(f)$ 为模型复杂度, $\lambda \geqslant 0$是系数,用以权衡经验风险和模型复杂度。

常用损失函数
  • 0-1损失
$$ L ( Y , f ( X ) ) = \left\{ \begin{array} { l } { 1 , Y \neq f ( X ) } \\ { 0 , Y = f ( X ) } \end{array} \right. $$
  • 平方损失
  • 绝对损失
  • 对数损失
ERM 与 SRM

经验风险最小化(ERM)与结构风险最小化(SRM)

  1. 极大似然估计是经验风险最小化的一个例子。

    当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化等价于极大似然估计

  2. 贝叶斯估计中的最大后验概率估计是结构风险最小化的一个例子。

    当模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型的先验概率表示时,结构风险最小化等价于最大后验概率估计。

算法

模型评估与模型选择

  • 训练误差和测试误差是模型关于数据集的平均损失。

  • 统计学习方法具体采用的损失函数未必是评估时使用的损失函数。

正则化与交叉验证

正则化

模型选择的典型方法是正则化

交叉验证

另一种常用的模型选择方法是交叉验证

  • 简单
  • S折(K折, K-Fold)
  • 留一法

泛化能力

  • 采用最多的方法是通过测试误差来评价学习方法的泛化能力

  • 统计学习理论试图从理论上对学习方法的泛化能力进行分析

  • 学习方法的泛化能力往往是通过研究泛化误差的概率上界进行的, 简称为泛化误差上界(generalization error bound)

事实上,泛化误差就是所学习到的模型的期望风险

生成模型与判别模型

监督学习方法可分为生成方法(generative approach)与判别方法(discriminative approach)。

 生成方法判别方法
定义由数据学习联合概率分布 $P(X, Y)$,然后求出条件概率分布 $P(Y \mid X)$ 作为预测的模型,即生成模型 $P(Y \mid X) = \frac { P(X, Y) } { P(X) }$由数据直接学习决策函数 $f(X)$或者条件概率分布 $P(Y \mid X)$ 作为预测的模型
特点1. 可以还原出联合概率分布 P(X, Y);
2. 学习收敛速度更快;
3. 存在隐变量时,仍可以使用;
1. 直接面对预测,学习的准确率更高
2. 可以对数据进行各种程度的抽象, 定义特征并使用特征, 可以简化学习问题

10种统计学习方法总结

方法适用问题模型特点模型类型学习策略损失函数学习算法
感知机二分类分离超平面判别模型极小化误分点到超平面距离误分点到超平面距离随机梯度下降
k近邻法多分类、回归特征空间,样本点判别模型——————
朴素贝叶斯法多分类特征与类别的联合概率分布,条件独立假设生成模型极大似然估计,极大后验概率估计对数似然损失概率计算公式,EM算法
决策树多分类、回归分类树,回归树判别模型正则化的极大似然估计对数似然损失特征选择,生成,剪枝
逻辑斯蒂回归与最大熵模型多分类特征条件下类别的条件概率分布,对数线性模型判别模型极大似然估计,正则化的极大似然估计逻辑斯蒂损失改进的迭代尺度算法,梯度下降,拟牛顿法
支持向量机二分类分离超平面,核技巧判别模型极小化正则化合页损失,软间隔最大化合页损失序列最小最优化算法(SMO)
提升方法二分类弱分类器的线性组合判别模型极小化加法模型的指数损失指数损失前向分布加法算法
EM算法概率模型参数估计含隐变量概率模型——极大似然估计,极大后验概率估计对数似然损失迭代算法
隐马尔可夫模型标注观测序列与状态序列的联合概率分布模型生成模型极大似然估计,极大后验概率估计对数似然损失概率计算公式,EM算法
条件随机场标注状态序列条件下观测序列的条件概率分布,对数线性模型判别模型极大似然估计,正则化极大似然估计对数似然损失改进的迭代尺度算法,梯度下降,拟牛顿法
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值