1、目前机器学习中的绝大部分方法基于概率统计方法,因此,统计学习=统计机器学习=机器学习
2、统计学习以数据为研究对象,是数据驱动的学科,其关于数据的基本假设是“同类数据具有一定的统计规律性”
3、统计学习的三要素包括模型的假设空间、模型选取的准则以及模型学习的算法,可概括为“模型+策略+算法”
4、基本概念:
4.1 将输入与输出所有可能取值的集合分别称为输入空间和输出空间
4.2 每个具体的输入为一个实例,通常由特征向量(feature vector)表示
4.3 所有特征向量存在的空间成为特征空间
4.4 一般,假设输入空间与特征空间为相同的空间
4.5 输入与输出对称为样本(sample)
4.6 回归问题、分类问题、标注问题(输入变量和输出变量均为变量序列的预测问题)
4.7 监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。模型属于由输入空间到输出空间的映射的集合,这个集合成为假设空间,假设空间的确定意味着学习范围的确定
4.8 监督学习的模型分为由条件概率表示的概率模型,和由决策函数表示的非概率模型
4.9 损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏
4.10 学习的目标原本应该是选择期望风险最小的模型,但由于训练样本有限,只能选择经验风险最小化策略,但当样本容量很小时,经验风险最小化学习有可能会出现过拟合现象,此时可以追加表示模型复杂度的正则化项或者罚项,构造正则化项,即学习结构风险最小的模型
4.11 注意,统计学习方法中具体采用的损失函数未必是评估时使用的损失函数
4.12 过拟合,是指学习时选择的模型所包含的参数过多,以至于出现这一模型对已知数据预测的很好,但对位置数据预测的很差的现象。学习的目的在于进行最优的模型选择,即选取复杂度适当的模型,以达到测试误差最小的目的
4.13 时刻牢记下图:训练误差和测试误差与模型复杂度的关系
5、现有理论认为,对于分类识别,训练样本的数量不应小于特征空间维数的5-10倍,为了获取较高的分类正确率,则应保持在10倍以上