《统计学习方法-第一篇监督学习》统计机器学习及监督学习概论
一、统计机器学习及监督学习概论:
(一)、统计学习
统计学习 : 也叫统计机器学习,是关于 计算机 基于 数据 构建 概率统计模型 并运用模型对数据进行 预测 与 分析 的一门学科。
1.特点
根据定义,我们可以归纳以下五个特点:
- 以计算机及网络为平台,是建立在 计算机及网络 上的;
- 以数据为研究对象,是 数据驱动 的学科;
- 目的是对数据进行 预测与分析 ;
- 以方法为中心,利用 统计学习方法 构建模型并应用模型进行预测与分析;
2.对象
数据
统计学习的前提 :(基本假设)同类数据具有一定的统计规律性。
3.目的
预测与分析 :学习什么模型,如何学习使模型能够准确的预测与分析,同时也要考虑尽可能提高学习效率。
4.方法
从给定的、有限的、用于学习的 训练数据 集合出发,假设数据是 独立同分布 产生的;
并且假设要学习的模型属于某个函数的集合(假设空间);应用某个 评价准则 ,从假设空间中选取一个 最优模型 (由算法实现),使他对已知的训练数据及位置的测试数据在给定评价准则的条件下有最优预测。
步骤 :
- 得到一个有限的训练数据集合;
- 确定包含所有可能的模型的假设空间,即学习模型的集合;
- 确定模型选择的准则,即学习的策略;
- 实现求解最优模型的算法,即学习的算法;
- 通过学习方法选择最优模型;
- 利用学习的最优模型对新数据今昔你个预测或分析。
5.分类
书中给出了以下四个分类角度
5.1 基本分类
- 监督学习 :从标注数据中学习预测模型的机器学习问题。本质是学习输入到输出映射的统计规律。
- 无监督学习 : 从无标注数据中学习预测模型的机器学习问题。本质是学习数据中的统计规律或潜在结构。
- 强化学习 :智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。本质是学习最优的序贯决策。
- 半监督学习 :利用标注数据和未标注数据学习预测模型的机器学习问题。目标是利用未标注数据中的信息,辅助标注数据,进行监督学习,以较低成本达到较好的学习效果。
- 主动学习 :机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。目标是找到对学习最有帮助的实例,让教师标注,以较小的标注代价达到较好的学习效果。
5.2 按模型分类
- 概率模型与非概率模型 :概率模型可表示为联合概率分布的形式;
- 线性模型与非线性模型
- 参数化模型与非参数化模型 :区别在于参数的维度是否固定;
5.3 按算法分类
- 在线学习 :每次接受一个样本,进行预测,之后学习模型ÿ