第一章 统计学习方法概论

第一章 统计学习方法概论

1.1统计学习

特点: 统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并 应用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习(statistical machine learning)

主要特点:

  1. 统计学习以计算机及网络为平台;
  2. 统计学习以数据为研究对象,是数据驱动的学科;
  3. 统计学习的目的是对数据进行预测与分析;
  4. 统计学习以方法为中心,构建模型并应用模型进行预测与分析;
  5. 统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科。

“如果一个系统能够通过执行某个过程改进它的性能,这就是学习”—— Herbert A. Simon

对象: 统计学习的对象是数据(data)

​ 统计学习的前提:统计学习关于数据的基本假设是同类数据具有一定的统计规律。

​ 在统计学习过程中,以变量或变量组表示数据。数据类型:连续变量和离散变量。

目的: 统计学习通过构建概率统计模型(方法)对数据进行预测与分析(目的)。

方法:监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning)等组成。

监督学习(supervised learning)方法:

从给定的、有限的、用于学习的训练数据(training data)集合出发,假设数据是独立同分布产生的;并假设要学习的模型属于某个函数的集合,称为假设空间(hypothesis space)。应用某个评价准则(evaluation criterion),从假设空间中选取一个最优的模型,使它对已知训练数据及未知的测试数据(test data)在给定的评价准则下有最优的预测;最优模型的选取由算法实现。

监督学习方法主要包括:分类、标注与回归 问题的方法。

实现步骤:

  1. 得到一个有限的训练数据集合;
  2. 确定包含所有可能的模型的假设空间,即学习模型的集合;
  3. 确定模型选择的准则,即学习的策略
  4. 实现求解最优模型的算法,即学习的算法
  5. 通过学习方法选择最优模型;
  6. 利用学习的最优模型对新数据进行预测与分析。

研究: 方法、理论、应用

重要性:

  1. 统计学习是处理海量数据的有效方法;
  2. 统计学习是计算机智能化的的有效手段;
  3. 统计学习是计算机科学发展的一个重要组成部分。

1.2 监督学习

1.2.1 基本概念

  1. 在监督学习中,将输入与输出所有可能取值的集合分别称为 输入空间(input space)与输出空间(output space)。通常 output space < input space。

  2. 每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示。

    所有特征向量存在的空间称为特征空间(feature space)

输入实例 x x 的特征向量记作

x=(x(1),x(2),...,x(i),...,x(n))T

xi x i 表示多个输入变量中的第 i i 个:
xi=(xi(1),xi(2),...,xi(n))T

监督学习从训练数据(training data)集合中学习模型,对测试数据进行预测(test data)。训练数据由输入(或特征向量)与输出对组成,训练集通常表示为:

T={(x1,y1),(x2,y2),...,(xN,yN)} T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) }

输入与输出对又称为样本(sample)或样本点。

根据输入、输出变量的不同类型,对预测任务给予不同的名称:

  1. 回归问题(regression):输入变量与输出变量均为连续变量的预测问题;
  2. 分类问题(classification):输出变量为有限个离散变量的预测问题;
  3. 标注问题(tagging):输入变量与输出变量均为变量序列的预测问题。

对于二分类:

TP — 将正类预测为正类数;FN — 将正类预测为负类数;

FP — 将负类预测为正类数;TN — 将负类预测为负类数;

精确率(precision): P=TPTP+FP P = T P T P + F P

召回率(recall): P=TPTP+FN P = T P T P + F N

  1. 监督学习假设输入与输出的随机变量 X X Y 遵循联合概率分布 (joint probability distribution) P(X,Y) P ( X , Y ) ——关于数据的基本假设。

训练数据与测试数据被看作是依联合概率分布 P(X,Y) P ( X , Y ) 独立同分布产生的。

img

  1. 假设空间(hypothesis space):监督学习的目的在于由输入到输出的映射,这一映射由模型来表示。模型属于由输入空间到输出空间的映射的集合。

    监督学习的模型可以使概率模型或非概率模型,由条件概率分布 P(Y|X) P ( Y | X ) 或决策函数(decision function) Y=f(X) Y = f ( X ) 表示。对具体的输入进行相应的输出预测时,写作 P(y|x) P ( y | x ) y=f(x) y = f ( x )

1.2.2 问题的形式化

问题的形式化.png

1.3 统计学习三要素

1.3.1 模型

模型:所要学习的条件概率分布或决策函数。

模型的假设空间:包含所有可能的条件概率分布或决策函数。

假设空间 F F 、参数空间(parameter space) θ θ

1.3.2 策略

1.3.2.1 损失函数和风险函数

损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。

用损失函数(loss function)或代价函数(cost function)来度量预测错误的程度。损失函数是 f(X) f ( X ) Y Y 的非负实值函数,记作 L(Y,f(X)) .

损失函数:
1. 0-1损失函数(0-1 loss function):

L(Y,f(X))={1,Yf(X)2,Y=f(X) L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 2 , Y = f ( X )

2. 平方损失函数(quadratic loss function):
L(Y,f(X))=(Yf(X))2 L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2

3. 绝对损失函数(absolute loss function):
L(Y,f(X))=|Yf(X)| L ( Y , f ( X ) ) = | Y − f ( X ) |

4. 对数损失函数(logarithmic loss function)或对数似然损失函数(log-likelihood loss function):
L(Y,P(Y|X)=logP(Y|X) L ( Y , P ( Y | X ) = − l o g P ( Y | X )

损失函数值越小,模型就越好。损失函数的期望是:
Rexp(f)=Ep[L(Y,f(X))]=X×YL(y,f(x))P(x,y)dx R e x p ( f ) = E p [ L ( Y , f ( X ) ) ] = ∫ X × Y L ( y , f ( x ) ) P ( x , y ) d x

称为风险函数(risk function)或期望损失(expected loss)。
模型 f(X) f ( X ) 关于训练数据集的平均损失称为经验风险(empirical risk)或经验损失(empirical loss),记作 Remp R e m p :
Remp=1Ni=1NL(yi,f(xi)) R e m p = 1 N ∑ i = 1 N L ( y i , f ( x i ) )

期望风险 Rexp(f) R e x p ( f ) 是模型关于联合分布的期望损失,经验风险 Remp R e m p 是模型关于训练样本集的平均损失。
根据大数定律,当 N N 趋于无穷时,经验风险 Remp 趋于期望风险 Rexp(f) R e x p ( f )
现实中训练样本数有限,要对经验风险进行一定的矫正,这就涉及到:经验风险最小化和结构风险最小化。

1.3.2.2 经验风险最小化和结构风险最小化

经验风险最小化(empirical risk minimization, ERM)即求解最优化问题:

minfF1Ni=1NL(yi,f(xi)) min f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) )

例: 当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化等价于极大似然估计(maximum likelihood estimation)。

当样本容量很小时,经验风险最小化学习的效果可能会产生过拟合(over-fitting)现象。

结构风险最小化是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化(regularization)。结构风险在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term)。结构风险的定义是:

Rsrm(f)=1Ni=1NL(yi,f(xi))+λJ(f)(λ0) R s r m ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) ( λ ≥ 0 )

结构风险最小化(structural risk minimization, SRM):
minfFRsrm(f)=1Ni=1NL(yi,f(xi))+λJ(f)(λ0) min f ∈ F R s r m ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) ( λ ≥ 0 )

1.3.3 算法

算法(algorithm)是指学习模型的具体计算方法。

1.4 模型评估与模型选择

1.4.1 训练误差与测试误差

统计学习的目的是使学到的模型不仅对已知数据而且对未知数据都能有很好的预测能力。不同的学习方法会给出不同的模型。当损失函数给定时,基于损失函数的模型的训练误差(training error)和模型的测试误差(test error)就自然成为学习方法评估的标准。

概念: 假设学习到的模型使 Y=f^(X) Y = f ^ ( X ) ,训练误差是模型 Y=f^(X) Y = f ^ ( X ) 关于训练数据集的平均损失:

Rrem(f^)=1Ni=1NL(yi,f^(xi))(N) R r e m ( f ^ ) = 1 N ∑ i = 1 N L ( y i , f ^ ( x i ) ) ( N 为 训 练 样 本 容 量 )

概念: 测试误差是模型 Y=f^(X) Y = f ^ ( X ) 关于测试数据集的平均损失:
etest=1Ni=1NL(yi,f^(xi))(N) e t e s t = 1 N ′ ∑ i = 1 N ′ L ( y i , f ^ ( x i ) ) ( N ′ 为 测 试 样 本 容 量 )

1.4.2 过拟合与模型选择

所选择的模型要与真模型的参数个数相同,所选择的模型的参数向量与真模型的参数向量相近。

如果一味追求提高对训练数据的预测能力,所选择的复杂度则往往会比 真模型更高,这种现象称为过拟合(over-fitting)。

过拟合:指学习时选择的模型所包含的参数过多,以至于出现这一模型对已知数据测试得很好,但对未知数据测试得很差的现象。

img

1.5 正则化与交叉验证

正则化(regularization):结构风险最小化,选择经验风险和模型复杂度同时较小的模型。

minfF1Ni=1NL(yi,f(xi))+λJ(f)(λ0) min f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) ( λ ≥ 0 )

第1项,经验风险,第2项,正则化项。

奥卡姆剃刀(Occam’s razor):在所有可能选择的模型中,能够很好地解释已知数据并且十分简单的模型才是最好的。

交叉验证(cross validation):1. 简单的交叉验证、2. S折交叉验证、3. 留一交叉验证。

img

1.6 泛化能力

泛化能力(generalization ability):由该方法学习到的模型对未知数据的预测能力,即期望风险。

泛化误差(generalization error):学习到的模型 f^ f ^

Rexp(f^)=Ep[L(Y,f^(X))]=X×YL(y,f^(x))P(x,y)dx R e x p ( f ^ ) = E p [ L ( Y , f ^ ( X ) ) ] = ∫ X × Y L ( y , f ^ ( x ) ) P ( x , y ) d x

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值