《统计学习方法》笔记-第一章

最新推荐文章于 2024-08-16 15:56:31 发布

Jipon

最新推荐文章于 2024-08-16 15:56:31 发布

阅读量108

点赞数

分类专栏：学习笔记文章标签：统计学习方法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chen19920219/article/details/59119026

版权

学习笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

第一章统计学习方法概论、

图片未能正常显示，请在文件末尾下载PDF文件

1.监督学习、非监督学习

监督学习：学习一个模型，使模型能够对任意的输入，都能给相应的输出做出很好的预测。如分类和回归。事先是有训练数据的

非监督学习：而无监督学习是事先没有训练数据的，直接对数据进行建模，如聚类等。

2. 回归、分类和标注问题

输入变量与输出变量均为连续变量预测的问题称为回归问题；输出变量为有限个离散变量的问题称为分类问题。输出变量与输出变量均为变量序列的预测问题称为标注问题。

3、损失函数和风险函数

损失函数度量模型一次预测的好坏；风险函数度量平均意义下模型预测的好坏。

常用的损失函数：

1）0-1损失函数

2) 平方损失函数

3）绝对损失函数

=

4）对数损失函数或者对数似然函数

风险函数（损失函数的期望）:

4、经验风险最小化与结构风险最小化

模型f(x)关于训练数据集的平均损失称为经验风险或者经验损失

根据大数定律，当样本容量N趋于无穷时，Remp趋于Rexp

例如，当模型是条件概率分布时，损失函数是对数函数时，经验风险最小化等价于极大似然估计。

结构风险最小化是为了防止样本容量很小的时候产生的过拟合现象。结构风险最小化等价于正则化。结构风险的定义：

5、过拟合

过拟合是指学习时选择的模型参数过多，对于已知数据预测的很好，但是对于未知数据预测很差的现象。

6 正则化和交叉验证

正则化是结构风险最小化策略的体现，是在经验风险上加一个正则化项或罚项。其作用是选择经验风险与模型复杂度同时较小的模型。

如果给定的样本充足，模型选择方法是交叉验证。分为训练集、验证集、测试集

7 泛化能力

泛化能力是指由该方法学习到的模型对未知数据的预测能力。事实上，泛化误差就是学习到的模型的期望风险。

8 生成模型和判别模型

监督学习方法分为生成方法和判别方法，所学到的模型分别称为生成模型和判别模型。

生成方法：由数据学习联合分布，然后求出条件概率分布。因为模型表示了给定输入X产生输出Y的生成关系。比如朴素贝叶斯。生成方法可以还原出联合概率分布，而判别方法则不能；生成方法的学习收敛速度更快。

判别方法：由决策函数f（x）或者条件概率分布作为预测的模型，判别方法的优点是直接面对预测，简化学习。

9 精确率和召回率

TP-将正类预测为正类

FN—正预测为负

FP—负预测为正

TN—负预测为负

精确率定义：

召回率：

F1值：

文件下载：链接: https://pan.baidu.com/s/1gfOJROn 密码: 2tfr

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《统计学习方法》笔记-第一章

第一章统计学习方法概论、图片未能正常显示，请在文件末尾下载PDF文件 1.监督学习、非监督学习监督学习：学习一个模型，使模型能够对任意的输入，都能给相应的输出做出很好的预测。如分类和回归。事先是有训练数据的非监督学习：而无监督学习是事先没有训练数据的，直接对数据进行建模，如聚类等。2. 回归、分类和标注问题输入变量与输出变量均为连续变量预测的问题称为回归问
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。