《统计学习方法》第一章：统计学习方法概论

最新推荐文章于 2022-10-07 11:10:16 发布

乐乐什么都有

最新推荐文章于 2022-10-07 11:10:16 发布

阅读量286

点赞数

分类专栏：统计学习方法文章标签：决策树机器学习

本文链接：https://blog.csdn.net/tudouyyy/article/details/121559330

版权

统计学习方法专栏收录该内容

3 篇文章 0 订阅

订阅专栏

《统计学习方法》第一章：统计学习方法概论

1.监督学习（Supervised learning）

监督学习的实现步骤：

得到一个有限的训练数据集合
选定模型的假设空间，也就是所有的备选模型
确定模型选择的准则，即学习的策略
实现求解最优模型的算法
通过学习方法选择最优模型
利用学习的最优模型对新数据进行预测或分析

在模型知道每一个样本的标签时，所进行的学习就是监督学习。监督学习与无监督学习的主要区别在于训练数据集有没有label
训练集： $T=\{(x_1,y_1),(x_2, y_2),...,(x_N, y_N)\}$
实例x的特征向量 $x=(x^{(1)}, x^{(2)}, ...,x^{(N)})^T$

2.统计学习的三要素

2.1 模型（假设空间）：

决策函数： $F=\{f|Y=f_{\theta}(X), \theta \in R^n\}$
条件概率分布： $F=\{ P|P_\theta(Y|X), \theta \in R^n\}$

2.2 策略

0-1损失函数： $\left\{\begin{matrix}1,Y\neq f(X)\\ 0, Y=f(X) \end{matrix}\right.$
平方损失函数： $L(Y,f(X))=(Y-f(X))^2$
绝对损失函数： $L (Y, f (X)) = ∣ Y - f (X) ∣$
对数损失函数： $-\log P(Y|X)$
对于上述四种损失函数，0-1损失函数的原理是，对比预测值和真实值，相等（即预测成功）返回1，不相等（即预测失败）返回0，由此可以看出，0-1损失函数是一种非黑即白的函数。这个函数在评估模型准确度时，只能返回0或1（对或错）而不能准确的反映出存在的偏差的具体数值。下面的三种函数就是为了解决这一问题。
经验风险最小化： $\min_{f\in F} \frac{1}{N}\sum _{i=1}^ N L(y_i, f(x_i))$
结构风险最小化： $\min_{f\in F} \frac{1}{N}\sum _{i=1}^ N L(y_i, f(x_i)) + \lambda J(f)$

2.3 算法

挑选一个合适的算法，使得可以求解最优模型
训练误差： $\frac{1}{N}\sum _{i=1}^ N L(y_i, \hat f(x_i))$
测试误差： $\frac{1}{N^{'}}\sum _{i=1}^ {N^{'}} L(y_i, \hat f(x_i))$

3. 正则化与交叉验证

最小化结构风险： $\frac{1}{N}\sum _{i=1}^ N L(y_i, f(x_i)) + \lambda J(f)$
交叉验证：数据集划分为以下三部分：
训练集：模型的训练
测试集：模型的选择
验证集：模型的评估

4. 泛化能力(Generalization ability)

定理1.1泛化误差上界
对于二分类问题，当假设空间时有限个函数的集合 $F=(f_1, f_2,...,f_d)$ 时，对任意一个函数 $\in F$ ，至少以概率 $1-\delta$ , 以下不等式成立： $\leq \hat{R}(f) + \epsilon(d,N,\delta)$
其中： $\epsilon(d,N,\delta)=\sqrt{\frac{1}{2N}(\log d + \log{\frac{1}{\delta}})}$

5. 生成模型与判别模型

生成方法： $\frac{P(X,Y)}{P(x)}$
判别方法： $f (X), P (Y ∣ X)$

6. 分类问题(Classification)

$T P$ -将正类预测为正类
$F N$ -将正类预测为负类
$F P$ -将负类预测为正类
$T N$ -将负类预测为负类
精确率：预测为正类的样本中有多少被分对了 $\frac{TP}{TP+FP}$
召回率：在实际正类中，有多少正类被模型发现了 $R=\frac{TP}{TP+FN}$
F1值： $\frac{2}{F_1} = \frac{1}{P} + \frac{1}{R}$
$F_1 = \frac{2TP}{2TP+FP+FN}$

7.标注问题（Tagging）

8.回归问题（Regression）

得出的结果是一个精确的值

9.总结（Summarization）

统计学习路线：设计模型->训练->预测
监督学习与非监督学习的联系与区别
统计学习的三要素：模型、策略、算法
模型的评估：训练误差、验证误差、测试误差
正则化与交叉验证
泛化能力：泛化误差上界
生成模型与判别模型的联系与区别

乐乐什么都有

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《统计学习方法》第一章：统计学习方法概论

第一章：统计学习方法概论1.监督学习（Supervised learning）监督学习的实现步骤：得到一个有限的训练数据集合选定模型的假设空间，也就是所有的备选模型确定模型选择的准则，即学习的策略实现求解最优模型的算法通过学习方法选择最优模型利用学习的最优模型对新数据进行预测或分析在模型知道每一个样本的标签时，所进行的学习就是监督学习。监督学习与无监督学习的主要区别在于训练数据集有没有label训练集： T={(x1,y1),(x2,y2),...,(xN,yN)}T=\{(x_1,
复制链接

扫一扫