统计学习方法第1章统计学习方法概论

最新推荐文章于 2022-04-03 11:32:41 发布

super_chicken

最新推荐文章于 2022-04-03 11:32:41 发布

阅读量312

点赞数

分类专栏：统计学习方法文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/super_chicken/article/details/78498992

版权

统计学习方法专栏收录该内容

9 篇文章 0 订阅

订阅专栏

统计学习方法第1章统计学习方法概论

统计学习 是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。

统计学习包括监督学习，非监督学习，半监督学习和强化学习。本书主要讨论监督学习问题。

输入实例x的特征向量：

监督学习 从训练数据集合中学习模型，对测试数据进行预测。
训练数据由输入与输出对组成：

监督学习分为学习和预测两个过程，首先学习系统利用给定的训练数据集，通过学习得到一个模型，随后预测系统对给定的测试样本中的输入由模型给出相应的输出。

统计学习方法的三要素：模型，策略和算法。

模型：所要学习的条件概率分布或决策函数，其假设空间包含所有可能的条件概率分布或决策函数
策略：按照什么样的准则学习或选择最优的模型，如损失函数和风险函数
算法：求解最优模型的具体计算方法

假设学习到的模型是，则 训练误差 是模型关于训练数据集的平均损失：

其中L为 损失函数 ，如0-1损失，平方损失等。

测试误差 是模型关于测试数据集的平均损失：

当假设空间含有不同复杂度的模型时，就要面临模型选择的问题。若模型复杂度比过高，包含参数过多，则会出现 过拟合 现象，对已知数据预测得很好，但对未知数据预测得很差。
常用的模型选择方法包括正则化与交叉验证。

正则化 在经验风险上加上一个正则化项，一般是模型复杂度的单调递增函数：

其中λ为系数。

若样本充足，进行模型选择的一种方法是将数据集随机切分成三部分，分别为训练集，验证集和测试集，训练集用来训练模型，验证集用于模型选择，测试集用于最终评估。
若样本不足，则使用 交叉验证 的方法，将数据集切分并组合为训练集和测试集，反复进行训练，测试和模型选择。

泛化能力 指学习到的模型对位置数据的预测能力。模型对位置数据的预测误差即为泛化误差：

监督学习又可分为 生成方法 和 判别方法 。

生成方法由数据学习联合概率分布P(X,Y)，然后求出概率分布P(Y|X)，即生成模型：
。

判别方法由数据直接学习决策函数f(X)或条件概率分布P(Y|X)，即判别模型。

分类是监督学习的一个核心问题，本书主要讨论二类分类问题。

对于二类分类问题的常用评价指标是精确率和召回率：

TP：将正类预测为正类
FN：将正类预测为负类
FP：将负类预测为正类
TN：将负类预测为负类

精确率定义为
召回率定义为

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。