最近开始学习这本书,初看感觉有些难度,主要想记录一些重点知识和一些难的点进行详细理解。
目录
1 统计学习以及监督学习概论
1.1 统计学习
本书所介绍统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测分析的一类方法,所要研究的主体是数据。
统计学习的方法可以分为:
- 监督学习(supervised learning),也就是所给定的数据集具有对应的标签,在进行训练时可以通过对比输出结果 和标签的差距来调整模型。
- 无监督学习(unsupervised learning),是指从无标签数据中学习进行预测的模型,本质上是让模型去学习数据中的统计规律或者潜在规律。
- 强化学习(reinforcement learning),是指智能系统在与环境连续互动中学习最优行为策略,本质是学习最优序贯决策。
统计学习中的一些基本概念:
- 训练数据(training data),也就是主要进行研究的对象,提取出数据的特征,抽象出数据的模型。
- 假设空间(hypothesis space),是指假设学习的模型属于某个函数的集合。
- 评价准则(evaluation criterion),是指用来评价一个模型好坏的准则。
- 测试数据(test data),是指之前没有使用过的用来测试模型性能的数据。
统计学习三要素,为模型(model)、策略(strategy)即确定模型的准则和算法(algorithm)即求解最优模型的方法。
1.1.1 基本分类
-
监督学习
监督学习的本质是学习输入到输出的映射的统计规律。
1)输入空间、特征空间和输出空间输入与输出所有可能取值的集合分别称为输入空间(input space)与输出空间(output space)。
每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示。这时,所有的特征向量存在的空间称为特征空间(feature space)。
2)联合概率分布