统计学习方法概论

最新推荐文章于 2022-07-21 21:36:59 发布

我和一只小喵喵

最新推荐文章于 2022-07-21 21:36:59 发布

阅读量117

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

统计学习方法概论

1 统计学习方法概论

1 统计学习方法概论

注：对《统计学习方法》第一章知识点的概括

1.1 统计学习

对象：数据；
基本假设：同类数据具有一定的统计规律性；
目的：预测和分析；
方法：监督学习、非监督学习、半监督学习和强化学习；

1.2 监督学习

任务：对于给定的输入对其相应的输出做出一个好的预测；

基本概念

输入空间、特征空间与输出空间
联合概率分布： $P (X, Y)$ ——X和Y具有联合概率分布是监督学习关于数据的基本假设；
假设空间：输入空间到输出空间的映射的集合；
学习模型：概率模型（ $P (Y ∣ X)$ ）、非概率模型（决策函数 $Y = f (X)$ ）

1.3 统计学习三要素

方法 = 模型+策略+算法

损失函数——模型一次预测的好坏

0-1 损失函数（错误L为1，否则为0）
平方损失函数（真实与预测之差的平方）
绝对损失函数（之差绝对值）
对数损失函数（ $- l o g P (X ∣ Y)$ ）

风险函数——平均意义下模型的好坏

风险函数——损失函数的期望

经验风险最小化
$\frac{1}{N} \sum^N_{i=1}L(y_i, f(x_i))$

结构风险最小化
防止过拟合提出
$R_{srm}(f) = \frac{1}{n} \sum^N_{i=1}L(y_i, f(x_i)) + \lambda J(f)$

1.4 模型的评估与选择

测试/训练误差
过拟合和模型选择

1.5 正则化和交叉验证

正则化：结构风险最小化策略的实现
$\lambda J(f)$ ：正则化项

L1范数： $\frac{1}{N} \sum_{i=1}^N(f(x_i;w)-y_i)^2 + \lambda ||w||_1$
L2范数： $\frac{1}{N} \sum_{i=1}^N(f(x_i;w)-y_i)^2 + \frac { \lambda}{2}||w||^2$

交叉验证
随机分割数据：训练集、验证集、测试集；

1.6 泛化能力

泛化能力：该方法学习到的模型对未知数据的预测能力；

1.7 生成模型与判别模型

生成模型
由数据学习联合概论分布求出条件概论分布作为预测的模型 $\frac{P(X,Y)}{P(X)}$
典型的有：朴素贝叶斯、HMM等
判别模型
直接学习决策函数或条件概率分布作为预测模型
典型的有：k近邻、感知机、决策树、logistic回归模型、最大熵模型、支持向量机、提升方法和条件随机场。

1.8 分类问题

二分类的评价指标：精确度、召回率

TP——正类预测为正类数
FN——正类预测为负类数
FP——负类预测为正类数
TN——负类预测为负类数

精确度： $\frac{TP}{TP+FP}$
召回率： $\frac{TP}{TP+FN}$
F1值： $\frac{2TP}{2TP+FP+FN}$ P和R的调和均值

1.9 标注问题

输入：观测序列
输出：标记序列或状态序列

1.10 回归问题

预测输入变量和输出变量的关系

参考

《统计学习方法》李航

我和一只小喵喵

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法概论

统计学习方法概论1 统计学习方法概论1.1 统计学习1.2 监督学习基本概念1.3 统计学习三要素损失函数——模型一次预测的好坏风险函数——平均意义下模型的好坏1.4 模型的评估与选择1.5 正则化和交叉验证1.6 泛化能力1.7 生成模型与判别模型1.8 分类问题1.9 标注问题1.10 回归问题参考1 统计学习方法概论注：对《统计学习方法》第一章知识点的概括1.1 统计学习对象：数据；...
复制链接

扫一扫