统计学习及监督学习概论
第一节 统计学习
统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的学科。
统计学习研究的对象是数据。
统计学习目的是对数据进行预测与分析。
统计学习的方法是基于数据构建概率统计模型从而对数据进行预测与分析。
统计学习由监督学习(supervised learning)、无监督学习(unsupvised learning)和强化学习(reinforcement learning)等组成。
统计学习三要素:模型(model)、策略(strategy)和算法(algorithm)。
实现统计学习步骤:
- 得到一个有限的训练数据集合;
- 确定包含所有可能的模型的假设空间,即学习模型的集合;
- 确定模型选择的准则。即学习的策略;
- 实现求解最优模型的算法,即学习的算法;
- 通过学习方法选择最优的模型;
- 利用学习的最优模型对新数据进行预测或分析。
第二节 统计学习的分类
基本分类
-
监督学习
监督学习是指在标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。 -
无监督学习
无监督学习是指在无标注数据中学习预测模型的机器学习问题。无标注数据是自然界中得到的数据,预测模型表示数据的类别、转换和概率。无监督学习的本质是学习数据中的统计规律或潜在结构。 -
强化学习
强化学习是指智能系统与在环境的连续互动中学习的最优行为策略的机器学习问题问题。假设智能系统与环境的互动基于马尔科夫决策过程,智能系统能观测到的是与环境互动得到的数据预测。强化学习的本质是学习最优的序贯决策。
按模型分类
-
概率模型与非概率模型
在监督学习中,概率模型取条件概率分布形式 P ( y ∣ x ) P(y|x) P(y∣x),非概率模型取函数形式 y = f ( x ) y = f(x) y=f(x) 。在无监督学习中,概率模型是取条件概率分布形式 P ( z ∣ x ) P(z|x) P(z∣x)或 P ( x ∣ z ) P(x|z) P(x∣z) ,非概率模型取函数形式 z = g ( x ) z = g(x) z=g(x) 。在监督学习中,概率模型是生成模型,非概率模型是判别模型。 -
线性模型与非线性模型
-
参数模型与非参数模型
第三节 统计学习方法三要素
1. 模型
统计学习首先要考虑的就是学习什么样的模型。在监督学习过程中,模型就是所有学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或者决策函数。
假设空间用 F = { f ∣ Y = f ( X ) } . (1.1) \tag{1.1}\mathscr{F} = \left\{f|Y = f(X)\right\}. F={
f∣Y=f(X)}.(1.1)
其中, X X X和 Y Y Y是定义在输入空间 X \mathscr{X} X 和输出空间 Y \mathscr{Y} Y 上的变量 。这时 F \mathscr{F} F 通常是由一个参数向量决定的函数簇:
F = { f ∣ Y = f θ ( X ) , θ ∈ R n } . (1.2) \tag{1.2}\mathscr{F} = \left\{f|Y = f_{\theta}(X), \theta \in \mathbf{R}^n\right\}. F={
f∣Y=fθ(X),θ∈Rn}.(1.2)
参数向量 θ \theta θ 取决于 n n n 维欧式空间 R n \mathbf{R}^n Rn,称为参数空间。
假设空间也可以定义为条件概率的集合:
F = { P ∣ P ( Y ∣ X ) } . (1.4) \tag{1.4}\mathscr{F} = \left\{P|P(Y|X)\right\}. F={
P∣P(Y∣X)}.(1.4)
其中, X X X和和 Y Y Y是定义在输入空间 X \mathscr{X} X 和输出空间 Y \mathscr{Y} Y 上的随机变量。这时 F \mathscr{F} F 通常是由一个参数向量决定的条件概率分布簇:
F = { P ∣ P θ ( Y ∣ X ) , θ ∈ R n } . (1.5) \tag{1.5}\mathscr{F} = \left\{P|P_{\theta}(Y|X), \theta\in\mathbf{R}^n\right\}. F={
P∣Pθ(Y∣X),θ∈Rn}.(1.5)
参数向量 θ \theta θ取决于 n n n 维欧式空间 R n \mathbf{R}^n Rn,也称为参数空间。
2. 策略
1. 损失函数和风险函数
损失函数是 f ( X ) f(X) f(X)和 Y Y Y的非负实值函数,记住 L ( Y , f ( X ) ) . L(Y, f(X)). L(Y,f(X)).
统计学习常用的损失函数有以下几种:
- 0-1损失函数
L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) (1.6) \tag{1.6}L(Y, f(X)) = \begin{cases} 1, \ Y\neq f(X) \\[3ex] 0, \ Y = f(X) \end{cases} L(Y,f(X))=⎩⎪⎨⎪⎧1, Y=f(X)0, Y=f(X)(1.6) - 平方损失函数
L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 (1.7) \tag{1.7}L(Y, f(X)) = (Y-f(X))^2 L(Y,f(X))=(Y−f(X))2(1.7) - 绝对损失函数
L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ (1.8) \tag{1.8}L(Y, f(X)) = |Y-f(X)| L(Y,f(X))=∣Y−f(X)∣(1.8) - 对数损失函数或对数似然损失函数
L ( Y , P ( Y ∣ X ) ) = − log P ( Y ∣ X ) (1.9) \tag{1.9}L(Y, P(Y|X)) = -\log P(Y|X) L(Y,P(Y∣X))=−logP(Y∣X)(1.9)
损失函数值越小,模型越好。由于模型的输入、输出 ( X , Y ) (X, Y) (X,Y) 是随机变量,遵循联合分布 P ( X , Y ) P(X, Y) P(X,Y) ,所以损失函数的期望是:
R e x p ( f ) = E P [ L ( Y , f ( X ) ) ] = ∫ X × Y L ( y , f ( x ) ) P ( x , y ) d x d y (1.10) \tag{1.10} \begin{aligned} R_{exp}(f) &= E_{P}\left[ L(Y, f(X))\right]\\ &=\int_{\mathscr{X}\times\mathscr{Y}}L(y, f(x))P(x,y)dxdy \end{aligned} Rexp(f)