统计学习方法三要素


统计学习方法可以简单的表示为:
方法=模型+策略+算法

模型

在监督学习过程中:
定义:所要学习的条件概率分布或决策函数
注:模型的假设空间(hypothesis space)包含的所有可能的条件概率分布或决策函数

假设空间用 F \mathcal{F} F表示

非概率模型

决策函数的集合(假设空间)
F = { f ∣ Y = f ( X ) } \mathcal{F}=\{f \mid Y=f(X)\} F={fY=f(X)}
其中X和Y是定义在输入空间和输出空间上的变量
F \mathcal{F} F通常是由一个参数向量决定的函数族
F = { f ∣ Y = f θ ( X ) , θ ∈ R n } \mathcal{F}=\left\{f \mid Y=f_{\theta}(X), \theta \in \mathbf{R}^{n}\right\} F={fY=fθ(X),θRn}
注:参数向量是 θ θ θ, R n R^n Rn为参数空间

概率模型

假设空间定义为条件概率集合:
F = { P ∣ P ( Y ∣ X ) } \mathcal{F}=\{P \mid P(Y \mid X)\} F={PP(YX)}
由一个参数向量决定条件概率分布族
F = { P ∣ P θ ( Y ∣ X ) , θ ∈ R n } \mathcal{F}=\left\{P \mid P_{\theta}(Y \mid X), \theta \in \mathbf{R}^{n}\right\} F={PPθ(YX),θRn}
注:参数向量是 θ θ θ, R n R^n Rn为参数空间

策略

思想:有了模型的假设空间后,接着需要考虑的是按照什么样的准则学习或者学则最优的模型。统计学习的目标在于从假设空间中选取最优的模型。
作用:选择最优模型

三大函数概念

损失函数:度量模型一次预测的好坏(真实值与预测值之间的差异),记: L ( Y , f ( X ) ) L(Y, f(X)) L(Y,f(X))
风险函数:度量平均意义下模型预测的好坏,对损失函数求期望:
R exp ⁡ ( f ) = E P [ L ( Y , f ( X ) ) ] = ∫ X × Y L ( y , f ( x ) ) P ( x , y ) d x   d y \begin{aligned} R_{\exp }(f) &=E_{P}[L(Y, f(X))] \\ &=\int_{\mathcal{X} \times \mathcal{Y}} L(y, f(x)) P(x, y) \mathrm{d} x \mathrm{~d} y \end{aligned} Rexp(f)=EP[L(Y,f(X))]=X×YL(y,f(x))P(x,y)dx dy
其中 P ( x , y ) P(x,y) Px,y联合概率分布是未知的所以风险函数无法直接进行计算我们又选择经验风险
经验风险:模型关于训练集的平均损失
对于给定数据集: T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x N , y N ) } T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\} T={(x1,y1),(x2,y2),,(xN,yN)}
经验风险记作: R e m p R_{\mathrm{emp}} Remp
期望经验:R_{\exp }(f)
根据大数定律:当样本容量 N N N趋于无穷时,经验风险趋于期望风险。

损失函数的种类
0-1损失函数(0-1 loss function)

L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L(Y, f(X))=\left\{\begin{array}{ll} 1, & Y \neq f(X) \\ 0, & Y=f(X) \end{array}\right. L(Y,f(X))={1,0,Y=f(X)Y=f(X)

平方损失函数(quadratic loss function)

L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y, f(X))=(Y-f(X))^{2} L(Y,f(X))=(Yf(X))2

绝对损失函数

L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ L(Y, f(X))=|Y-f(X)| L(Y,f(X))=Yf(X)

对数损失函数(logarithmic loss function)

L ( Y , P ( Y ∣ X ) ) = − log ⁡ P ( Y ∣ X ) L(Y, P(Y \mid X))=-\log P(Y \mid X) L(Y,P(YX))=logP(YX)
损失函数越小模型越好,

算法

定义:指学习模型的具体计算方法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值