《统计学习方法》- 概念介绍

weixin_37889021

于 2018-02-05 08:34:49 发布

阅读量223

点赞数

分类专栏：统计学

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37889021/article/details/79256314

版权

统计学专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1.1 基本概念

输入空间映射出特征空间，每一个具体的输入是一个实例，特征空间由特征向量组成

输入空间到输出空间的映射是模型，模型的集合称为假设空间

输入和输出对(x, y)称为样本或样本点

X和Y符合联合概率分布

预测系统对于给定的测试样本集中的输入xN+1给出对应的输出

1.2 统计学习三要素

1.2.1 模型

非概率模型有决策函数Y=f(X)表示，概率模型由条件概率P(Y | X)表示

1.2.2 策略

从假设空间中选取最优模型

（1）损失函数（代价函数）与风险函数

代价函数是预测值与实际值相比的错误程度

（2）经验风险最小化ERM和结构风险最小化SRM

经验风险最小化ERM：经验风险最小的模型是最优模型

结构风险最小化SRM：防止过拟合，增加罚项

1.2.3 算法

1.3 模型评估与模型选择

1.3.1 过拟合

随着模型复杂度增加，训练误差逐渐减小，测试误差先减小后增大

1.3.2 正则化与交叉验证

（1）正则化（结构风险最小化）

（2）交叉验证：将模型分为训练集、验证集、测试集，并重复使用切分

简单交叉验证：随机分为两部分（训练集、测试集）
S折交叉验证
留一交叉验证

1.3.3 泛化能力

泛化能力指所用的模型对预测新数据的能力

泛化误差

1.4 具体问题

1.4.1 分类问题

分类准确率：分类器正确分类数与总样本数之比

1.4.2 标注问题

标注问题的输入为观测序列，输出为标记序列或状态序列

weixin_37889021

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。