《统计学习方法》笔记-第一章

 

第一章  统计学习方法概论、

图片未能正常显示,请在文件末尾下载PDF文件

 

1.监督学习、非监督学习

监督学习:学习一个模型,使模型能够对任意的输入,都能给相应的输出做出很好的预测。如分类和回归。事先是有训练数据的

非监督学习:    而无监督学习是事先没有训练数据的,直接对数据进行建模,如聚类等。

2.  回归、分类和标注问题

输入变量与输出变量均为连续变量预测的问题称为回归问题;输出变量为有限个离散变量的问题称为分类问题。输出变量与输出变量均为变量序列的预测问题称为标注问题。

3、损失函数和风险函数

损失函数度量模型一次预测的好坏;风险函数度量平均意义下模型预测的好坏。

常用的损失函数:

1)0-1损失函数

2) 平方损失函数

3)绝对损失函数

=

 

4)对数损失函数或者对数似然函数

风险函数(损失函数的期望):

4、 经验风险最小化与结构风险最小化

模型f(x)关于训练数据集的平均损失称为经验风险或者经验损失

根据大数定律,当样本容量N趋于无穷时,Remp趋于Rexp

例如,当模型是条件概率分布时,损失函数是对数函数时,经验风险最小化等价于极大似然估计。

结构风险最小化是为了防止样本容量很小的时候产生的过拟合现象。结构风险最小化等价于正则化。结构风险的定义:

5、 过拟合

过拟合是指学习时选择的模型参数过多,对于已知数据预测的很好,但是对于未知数据预测很差的现象。

6  正则化和交叉验证

正则化是结构风险最小化策略的体现,是在经验风险上加一个正则化项或罚项。 其作用是选择经验风险与模型复杂度同时较小的模型。

如果给定的样本充足,模型选择方法是交叉验证。分为训练集、验证集、测试集

7  泛化能力

泛化能力是指由该方法学习到的模型对未知数据的预测能力。事实上,泛化误差就是学习到的模型的期望风险。

 

8 生成模型和判别模型

监督学习方法分为 生成方法和判别方法,所学到的模型分别称为生成模型和判别模型。

生成方法:由数据学习联合分布,然后求出条件概率分布。因为模型表示了给定输入X产生输出Y的生成关系。比如朴素贝叶斯。生成方法可以还原出联合概率分布,而判别方法则不能;生成方法的学习收敛速度更快。

判别方法:由决策函数f(x)或者条件概率分布作为预测的模型,判别方法的优点是直接面对预测,简化学习。

9 精确率和召回率

TP-将正类预测为正类

FN—正预测为负

FP—负预测为正

TN—负预测为负

精确率定义:

召回率:

F1值:

文件下载:链接: https://pan.baidu.com/s/1gfOJROn 密码: 2tfr

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值