统计学习方法概论

1 统计学习

  • 对象:数据(data),以变量或变量组表示。

  • 目的:预测和分析。

  • 方法:监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-unsupervised learning)、强化学习(reinforcement learning)。

  • 概念:训练数据(training data)、假设空间(hypothesis space)、评价准则(evaluation criterion)、测试数据(test data)。

2 监督学习

2.1 基本概念
  1. 输入空间(input space)、输出空间(output space)、实例(instance)、特征向量(feature space)。
  2. 联合概率分布:监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)。
  3. 假设空间:输入空间到输出空间的映射的集合。
2.2 问题的形式化

训练数据集T={(x1,y1),(x2,y2),…,(xN,yN)},其中(xi,yi),i=1,2,…,N,称为样本样本点

3 统计学习三要素

模型、策略、算法。

3.1 模型

条件概率分布或者决策函数。集合为假设空间。

3.2 策略

从假设空间中选取最优模型。

  • 损失函数和风险函数

    损失函数(loss function)或代价函数(cost function)度量预测值f(X)和真实值Y的偏差程度。

    1. 0-1损失函数
      L ( Y , f ( X ) ) = { 1 Y ≠ f ( X ) 0 Y = f ( X ) L(Y,f(X)) = \begin{cases} 1 & Y \ne f(X)\\ 0 & Y = f(X) \end{cases} L(Y,f(X))={10Y̸=f(X)Y=f(X)

    2. 平方损失函数
      L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y,f(X))=(Y-f(X))^2 L(Y,f(X))=(Yf(X))2

    3. 绝对损失函数
      L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ L(Y,f(X))=|Y-f(X)| L(Y,f(X))=Yf(X)

    4. 对数损失函数或对数似然损失函数
      L ( Y , f ( X ) ) = − l o g P ( Y ∣ X ) L(Y,f(X))=-logP(Y|X) L(Y,f(X))=logP(YX)

    损失函数的期望
    R e x p = E p [ L ( Y , f ( X ) ) ] = ∫ X Y L ( y , f ( x ) ) P ( x , y ) d x d y R_{exp}=E_p[L(Y,f(X))]=\int_{XY}L(y,f(x))P(x,y)dxdy Rexp=Ep[L(Y,f(X))]=XYL(y,f(x))P(x,y)dxdy
    这是理论上模型f(X)关于联合分布P(X,Y)的平均意义下的损失,称为风险函数。

    模型f(X)关于训练数据集的平均损失称为经验风险(empirical risk)或经验损失(empirical loss)。
    R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_{i})) Remp(f)=N1i=1NL(yi,f(xi))

  • 经验风险最小化与结构风险最小化

    1. 经验风险最小化(empirical risk minimization,ERM):经验风险最小的模型是最优的模型。

      • 适用条件:样本容量足够大。(样本容量小会产生过拟合)
      • 极大似然估计。模型是条件概率分布,损失函数是对数损失函数。
    2. 结构风险最小化(structural risk minimization,SRM):等价于正则化(regularization)。

      • 假设空间、损失函数、训练数据集确定的情况下,结构风险
        R s r m = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) R_{srm}=\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i})) + \lambda J(f) Rsrm=N1i=1NL(yi,f(xi))+λJ(f)
        J(f)为模型的复杂度。

      • 贝叶斯估计中的最大后验概率估计(maximum posterior probability estimation,MAP)。条件概率分布、对数损失函数、模型复杂度由模型的先验概率表示。

3.3 算法

4 模型评估与模型选择

4.1 训练误差与测试误差

训练误差(training error):基于损失函数。判断给定的问题是不是一个容易学习的问题。

测试误差(test error):学习方法对未知的测试数据集的预测能力。泛化能力(generalization ability)。

4.2 过拟合与模型选择

过拟合(over-fitting):学习时选择的模型所包含的参数过多,以至于出现这一模型对已知数据预测地很好,但对未知数据预测得很差的现象。

5 正则化与交叉验证

5.1 正则化

正则化(regularization):结构风险最小化。一般是模型复杂度的单调递增函数。

5.2 交叉验证(cross validation)
  1. 简单交叉验证

    随机将已给数据分成两部分,一部分作为训练集,另一部分作为测试集。

  2. S折交叉验证(S-fold cross validation)

    随机将已给数据切分为S个互不相交的大小相同的子集;利用S-1个子集的数据训练模型,利用余下的子集测试模型;对可能的S种选择重复进行。

  3. 留一交叉验证(leave-one-out cross validation)

    S=N。

6 泛化能力

6.1 泛化误差(generalization ability)

对未知数据预测的误差。

6.2 泛化误差上界

通过比较两种学习方法的泛化误差上界的大小来比较它们的优劣。

  • 样本容量的函数:样本容量增加时,泛化上界趋于0。
  • 假设空间容量的函数:假设空间容量越大,泛化误差上界就越大。

7 生成模型与判别模型

**生成方法(generative approach)**由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型(generative model):

P ( Y ∣ X ) = P ( X , Y ) P ( X ) P(Y|X)=\frac{P(X,Y)}{P(X)} P(YX)=P(X)P(X,Y)
生成模型表示给定输入X产生输出Y的生成关系。例:朴素贝叶斯法、隐马尔可夫模型。

**判别方法(discriminative approach)**由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型。关心对给定的输入X,应该预测什么样的输出Y。例:k近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法和条件随机场。

8 分类问题

8.1 概念

分类器(classifier)、预测(prediction)、分类(classification)、类(class)。

分类准确率(accuracy):对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。

8.2 评价指标

精确率(precision)、召回率(recall)。以关注的类为正类,其他类为负类。

  • TP:正类预测为正类数。
  • TN:正类预测为负类数。
  • FP:负类预测为正类数。
  • FN:负类预测为负类数。

精确率: P r e c i s i o n = T P T P + F P Precision=\frac{TP}{TP+FP} Precision=TP+FPTP

召回率: R e c a l l = T P T P + F N Recall=\frac{TP}{TP+FN} Recall=TP+FNTP

9 标注(tagging)问题

输入:观测序列;输出:标记序列或状态序列。

10 回归问题

预测输入变量和输出变量之间的关系。

11 补充

  1. 极大似然估计

    通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大。

    对于样本集 D = x 1 , x 2 , . . , x N D={x_1,x_2,..,x_N} D=x1,x2,..,xN,似然函数(likelihood function)为 L ( θ ) = P ( D ∣ θ ) = ∏ i = 1 N P ( x i ∣ θ ) L(\theta)=P(D|\theta)=\prod_{i=1}^{N}P(x_i|\theta) L(θ)=P(Dθ)=i=1NP(xiθ)

    使似然函数取最大值的 θ \theta θ值即为极大似然估计量。

  2. 伯努利

    0-1分布

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值