《统计学习方法》第一章:统计学习方法概论

《统计学习方法》第一章:统计学习方法概论

1.监督学习(Supervised learning)

监督学习的实现步骤:

  1. 得到一个有限的训练数据集合
  2. 选定模型的假设空间,也就是所有的备选模型
  3. 确定模型选择的准则,即学习的策略
  4. 实现求解最优模型的算法
  5. 通过学习方法选择最优模型
  6. 利用学习的最优模型对新数据进行预测或分析

在模型知道每一个样本的标签时,所进行的学习就是监督学习。监督学习与无监督学习的主要区别在于训练数据集有没有label
训练集: T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T=\{(x_1,y_1),(x_2, y_2),...,(x_N, y_N)\} T={(x1,y1),(x2,y2),...,(xN,yN)}
实例x的特征向量 x = ( x ( 1 ) , x ( 2 ) , . . . , x ( N ) ) T x=(x^{(1)}, x^{(2)}, ...,x^{(N)})^T x=(x(1),x(2),...,x(N))T

2.统计学习的三要素

2.1 模型(假设空间):

决策函数: F = { f ∣ Y = f θ ( X ) , θ ∈ R n } F=\{f|Y=f_{\theta}(X), \theta \in R^n\} F={fY=fθ(X),θRn}
条件概率分布: F = { P ∣ P θ ( Y ∣ X ) , θ ∈ R n } F=\{ P|P_\theta(Y|X), \theta \in R^n\} F={PPθ(YX),θRn}

2.2 策略

0-1损失函数: L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L(Y,f(X)) = \left\{\begin{matrix}1,Y\neq f(X)\\ 0, Y=f(X) \end{matrix}\right. L(Y,f(X))={1,Y=f(X)0,Y=f(X)
平方损失函数: L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y,f(X))=(Y-f(X))^2 L(Y,f(X))=(Yf(X))2
绝对损失函数: L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ L(Y,f(X)) = |Y-f(X)| L(Y,f(X))=Yf(X)
对数损失函数: L ( Y , P ( Y ∣ X ) ) = − log ⁡ P ( Y ∣ X ) L(Y,P(Y|X)) = -\log P(Y|X) L(Y,P(YX))=logP(YX)
对于上述四种损失函数,0-1损失函数的原理是,对比预测值和真实值,相等(即预测成功)返回1,不相等(即预测失败)返回0,由此可以看出,0-1损失函数是一种非黑即白的函数。这个函数在评估模型准确度时,只能返回0或1(对或错)而不能准确的反映出存在的偏差的具体数值。下面的三种函数就是为了解决这一问题。
经验风险最小化: min ⁡ f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) \min_{f\in F} \frac{1}{N}\sum _{i=1}^ N L(y_i, f(x_i)) fFminN1i=1NL(yi,f(xi))
结构风险最小化: min ⁡ f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) \min_{f\in F} \frac{1}{N}\sum _{i=1}^ N L(y_i, f(x_i)) + \lambda J(f) fFminN1i=1NL(yi,f(xi))+λJ(f)

2.3 算法

挑选一个合适的算法,使得可以求解最优模型
训练误差: 1 N ∑ i = 1 N L ( y i , f ^ ( x i ) ) \frac{1}{N}\sum _{i=1}^ N L(y_i, \hat f(x_i)) N1i=1NL(yi,f^(xi))
测试误差: 1 N ′ ∑ i = 1 N ′ L ( y i , f ^ ( x i ) ) \frac{1}{N^{'}}\sum _{i=1}^ {N^{'}} L(y_i, \hat f(x_i)) N1i=1NL(yi,f^(xi))

3. 正则化与交叉验证

最小化结构风险: 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) \frac{1}{N}\sum _{i=1}^ N L(y_i, f(x_i)) + \lambda J(f) N1i=1NL(yi,f(xi))+λJ(f)
交叉验证:数据集划分为以下三部分:
训练集:模型的训练
测试集:模型的选择
验证集:模型的评估

4. 泛化能力(Generalization ability)

定理1.1泛化误差上界
对于二分类问题,当假设空间时有限个函数的集合 F = ( f 1 , f 2 , . . . , f d ) F=(f_1, f_2,...,f_d) F=(f1,f2,...,fd)时,对任意一个函数 f ∈ F f \in F fF,至少以概率 1 − δ 1-\delta 1δ, 以下不等式成立: R ( f ) ≤ R ^ ( f ) + ϵ ( d , N , δ ) R(f) \leq \hat{R}(f) + \epsilon(d,N,\delta) R(f)R^(f)+ϵ(d,N,δ)
其中: ϵ ( d , N , δ ) = 1 2 N ( log ⁡ d + log ⁡ 1 δ ) \epsilon(d,N,\delta)=\sqrt{\frac{1}{2N}(\log d + \log{\frac{1}{\delta}})} ϵ(d,N,δ)=2N1(logd+logδ1)

5. 生成模型与判别模型

生成方法: P ( X ∣ Y ) = P ( X , Y ) P ( x ) P(X|Y) = \frac{P(X,Y)}{P(x)} P(XY)=P(x)P(X,Y)
判别方法: f ( X ) , P ( Y ∣ X ) f(X),P(Y|X) f(X),P(YX)

6. 分类问题(Classification)

T P TP TP-将正类预测为正类
F N FN FN-将正类预测为负类
F P FP FP-将负类预测为正类
T N TN TN-将负类预测为负类
精确率:预测为正类的样本中有多少被分对了 P = T P T P + F P P = \frac{TP}{TP+FP} P=TP+FPTP
召回率:在实际正类中,有多少正类被模型发现了 R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP
F1值 2 F 1 = 1 P + 1 R \frac{2}{F_1} = \frac{1}{P} + \frac{1}{R} F12=P1+R1
F 1 = 2 T P 2 T P + F P + F N F_1 = \frac{2TP}{2TP+FP+FN} F1=2TP+FP+FN2TP

7.标注问题(Tagging)

8.回归问题(Regression)

得出的结果是一个精确的值

9.总结(Summarization)

  1. 统计学习路线:设计模型->训练->预测
  2. 监督学习与非监督学习的联系与区别
  3. 统计学习的三要素:模型、策略、算法
  4. 模型的评估:训练误差、验证误差、测试误差
  5. 正则化与交叉验证
  6. 泛化能力:泛化误差上界
  7. 生成模型与判别模型的联系与区别
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值