统计学习也称为统计机器学习,希尔伯特·西蒙对学习的定义:如果一个系统能过通过执行某个过程改进它的性能,这就是学习。统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。
统计学习包括监督学习、非监督学习、半监督学习及强化学习
监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测
基本概念
输入空间、特征空间、输出空间
在监督学习中将输入与输出所有可能取值的集合分别称为输入空间和输出空间,输入和输出空间可以使有限元素的集合,也可以是整个欧式空间,输入空间和输出空间可以是同一个空间,也可以是不同的空间,但通常输出空间远远小于输入空间
每个具体的输入是一个实例,通常由特征向量表示,这时,所有特征向量存在的空间称为特征空间,特征空间的每一维对应于一个特征,有时假设输入空间与特征空间为相同的空间,对他们不予区分;有时假设输入空间与特征空间为不同的空间,将实例从输入空间映射到特征空间,模型实际是都是定义在特征空间上的
根据输入、输出变量类型的不同,对预测任务给予不同的名称:
- 输入变量与输出变量均为连续变量的预测问题称为回归问题;
- 输出变量为有限个离散变量的预测称为分类问题;
- 输入变量和输出变量均为变量序列的预测问题称为标注问题;
假设空间
监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间
监督学习利用训练数据集学习一个模型,再用模型对测试集进行预测,训练集往往是人工标注给出的,所以称为监督学习,监督学习分为学习和预测两个过程,由学习系统和预测系统完成