李航《统计学习方法》读书笔记（2）——1.5-1.0模型选择与几类问题

ZhangDanzhu

于 2019-01-22 20:20:21 发布

阅读量355

点赞数

分类专栏：数据结构和算法学习文章标签：统计学习方法机器学习数据挖掘读书笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ZhangDanzhu/article/details/86594510

版权

数据结构和算法学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

正则化
交叉验证
泛化能力
生成模型与判别模型
分类问题
标注问题
回归问题

正则化

结构风险最小化策略实现
经验风险上加上一个正则化项（regularizer）或罚项（penalty term）
正则化项一般是模型复杂度的单调递增函数
奥卡姆剃刀原理（Occam’s razor）角度
能够很好地解释数据并且十分简单
贝叶斯估计（Bayesian estimation）角度
正则化项对应于模型的先验概率

交叉验证

应用场景：数据不充足时模型选择
基本想法：重复使用数据；把给定的数据进行切分，组合为训练集与测试集，在此基础上反复训练、测试以及模型选择
简单交叉验证
- 一部分作训练集，一部分作测试集
- 用训练集在各种条件下训练模型，在测试集上评价各个模型测试误差
S折交叉验证
- 随机切分S个互不相交子集
- S-1个子集训练，一个子集测试
- 对可能的S种选择重复进行，选择S次平均误差最小的模型
留一交叉验证
- S折交叉验证特殊情形：S=N
- 应用场景：数据缺乏

泛化能力

泛化误差（generalization error）
学到的模型对未知数据预测的误差。事实上，即期望风险
泛化误差上界（generalization error bound）
- 是样本容量的函数，样本容量增加时趋于0
- 是假设空间容量的函数，容量越大，上界越大
- 上式证明用到了Hoeffding不等式

生成模型与判别模型

监督学习方法可以分为生成方法（generate approach）和判别方法（discriminative approach），所学到的模型分别为生成模型与判别模型

生成模型

生成方法由数据学习联合概率分布，然后求出条件概率分布作为预测模型
模型表示了给定输入X产生输出Y的生成关系
典型生成模型：朴素贝叶斯、隐马尔可夫
生成方法特点：
1. 可以还原出联合概率分布
2. 学习收敛速度更快
3. 存在隐变量时仍可用

判别模型

判别方法由数据直接学习决策函数或条件概率分布
判别方法关心的是对给定的输入X应该预测什么样的输出Y
典例：k近邻法、感知机、决策树、logistic回归模型、最大熵模型、支持向量机、提升方法和条件随机场
判别方法特点
1. 直接面对预测，往往学习的准确率更高
2. 由于直接学习，可以对数据进行各种程度上的抽象、定义特征并使用特征，因此可简化学习问题

分类问题

输出变量取有限个离散值

二分类问题常用评价指标——精确率（precision）与召回率（recall）
TP、FN、FP、TN
- 后面P/N表示被预测为正/负类，前面T/F表示预测准确与否

标注问题（tagging）

分类问题的推广，结构预测（structure prediction）问题的简单形式

输入：观测序列
输出：标记序列或状态序列

常用：隐马尔可夫模型，条件随机场
应用：信息抽取、自然语言处理

回归问题（regression）

等价于函数拟合
分类
- 按输入变量个数：一元回归和多元回归
- 模型类型：线性回归和非线性回归
使用平方损失函数时可由最小二乘法（least squares）求解

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
李航《统计学习方法》读书笔记（2）——1.5-1.0模型选择与几类问题

正则化结构风险最小化策略实现经验风险上加上一个正则化项（regularizer）或罚项（penalty term）正则化项一般是模型复杂度的单调递增函数奥卡姆剃刀原理（Occam’s razor）角度能够很好地解释数据并且十分简单贝叶斯估计（Bayesian estimation）角度正则化项对应于模型的先验概率交叉验证应用场景：数据不充足时模型选择基本想法：重复...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。