统计学习
-
统计学习特点:
统计学习(statistical learning)(统计机器学习):关于计算机基于数据构建规律统计模型并运用模型对数据进行预测与分析的学科
- 以计算机及网络为平台
- 以数据为研究对象
- 目的是对数据进行预测与分析
- 以方法为中心,构建模型并应用
- 是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多领域交叉学科
-
统计学习对象:
- 数据(同类数据具有一定的统计规律性,如可用随机变量来描述数据中的特征,用概率分布描述数据的统计规律)
- 以变量或变量组表示数据。数据分为由连续变量和离散变量表示的类型。
-
统计学习过程:
- 提取数据特征
- 抽象出数据的模型
- 发现数据中知识
- 对数据进行分析与预测
-
统计学习目的:
- 通过构建概率统计模型对数据进行预测与分析
-
统计学习方法:
- 三要素:包括模型的假设空间、模型选择的准则以及模型学习的算法
- 模型(model)、策略(strategy)和算法(algorithm)
- 分类:
- 监督学习(supervised learning):用于分类、标注与回归问题
- 从给定的、有限的、用于学习的训练数据(training data)集合出发,假设数据是独立同分布产生的
- 确定包含所有可能的模型的假设空间(hypothesis space),即学习模型的集合
- 确定模型选择的评价准则(evaluation criterion),即学习策略
- 实现求解最优模型的算法,即学习的算法
- 从假设空间中选取一个最优的模型,对已知训练数据及未知测试数据(test data)在给定的评价准则下有最优的预测
- 利用学习的最优模型对新数据进行预测或分析
- 非监督学习(unspervised learning)
- 半监督学习(semi-supervised learning)
- 强化学习(reinforcement learning)
- 监督学习(supervised learning):用于分类、标注与回归问题
- 三要素:包括模型的假设空间、模型选择的准则以及模型学习的算法