统计学习基础
什么是学习
Herbert A. Simon定义:如果一个系统能够通过执行某个过程改进它的性能,这就是学习
什么是统计学习
统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。也称统计机器学习(statistical machine learning)
统计学习的特点
- 以计算机及网络为平台
- 以数据为研究对象,是数据驱动的学科
- 目的是对数据进行预测与分析
- 以方法为中心,构建模型并应用模型进行预测与分析
- 是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科
统计学习分类
- 监督学习(supervised learning)
- 非监督学习(unsupervised learning)
- 半监督学习(semi-supervised learning)
- 强化学习(reinforcement learning)
- 等等
监督学习的统计学习方法的定义
从给定的、有限的、用于学习的训练数据(training data)几个出发,假设数据是独立同分布的;并且假设要学习的模型属于某个函数的集合,称为假设空间(hypothesis space);应用某个评价准则(evaluation criterion),从假设空间中选取一个最优的模型,使它对已知训练数据及未知测试数据(test data)在给定的评价准则下有最优的预测;最优模型的选取由算法实现。
统计学习方法的三要素
- 模型(model):模型的假设空间(函数集合)
- 策略(strategy):模型选择的准则
- 算法(algorithm):模型学习的算法
统计学习方法的步骤:
- 得到一个有限的训练数据集合
- 确定包含所有可能的模型的假设空间,即学习模型的集合
- 确定模型选择的准则,即学习的策略
- 实现求解最优模型的算法,即学习的算法
- 通过学习方法选择最优模型
- 利用学习的最优模型对新数据进行预测和分析
参考文献
[1] 李航. (2012). 统计学习方法.