统计学习方法第一章笔记
赫尔伯特·西蒙曾经对学习下定义:“如果一个系统能够通过执行某个过程改进它的性能,这就是学习。”现在人们提到的机器学习就是统计机器学习。
统计学习包括监督学习(supervised learning)、非监督学习(unsupervisedlearning)、半监督学习(semi- supervised learning)和强化学习(reinforcement learning)。本书主要介绍监督学习。
基本概念
1. 输入空间,特征空间和输出空间
2. 联合概率分布
3. 假设空间
在学习的过程中,学习系统根据所给出的训练数据集,通过学习得到一个模型,表示为条件概率分布或者决策函数,来描述输入到输出的映射关系。
统计学习三要素
1. 模型(model)
2. 策略(strategy)
3. 算法(algorithm)
求解最优化问题的算法
梯度下降法,牛顿法
训练误差和测试误差
训练误差是模型关于训练数集的平均损失。测试误差是模型关于测试数集的平均损失。
过拟合
在学习的过程中一味追求对训练数据的预测能力,使得对测试数据的预测能力下降。降低模型复杂度。
正则化和交叉验证
正则化项可以是模型向量参数的范数。模型参数向量的L0范数、L1范数、L2范数、迹范数。
范数规则化L0、L1与L2范数描述的很精彩。
来自http://blog.csdn.net/zouxy09/article/details/24971995
简单交叉验证
S折交叉验证
留一交叉验证
泛化能力
该方法学习到的模型对未知数据的预测能力
生成模型与判别模型
生成模型表示了给定输入X产生输出Y的生成关系。典型生成模型有:朴素贝叶斯和隐马尔科夫链。
判别问题关心的是给定一个输入X,预测出什么样的输出Y。
| 输入变量X | 输出变量Y |
分类问题 | 离散或连续 | 有限个离散变量 |
标注问题 | 变量序列 | 变量序列 |
回归问题 | 连续变量 | 连续变量 |