有监督学习(Supervised Learning)是指这样的一种场景:
有一组数量较多的历史样本集,其中每个样本有一组特征(features)和一个或几个标示其自身的类型或数值的标签(label);对历史样本学习得到模型后,可以用新样本的特征预测其对应的标签。
1. 场景
在有监督学习中可以将每条数据看成是一条由特征到标签的映射,训练的目的是找出映射的规律。根据标签的类型可以将有监督学习再分为两个子类:
- 分类(Classification):标签是可数的离散类型,比如疾病诊断(疾病的类型有限)、图像文字识别(文字的总量有限)。
- 回归(Regression):标签是不可数的连续类型、有大小关系,比如房价预测(值无法枚举)。
图1-8是一个胸科诊断的分类案例。
图1-8 分类学习示例
图1-8中的年龄、血液PH值、是否吸烟就是模型的特征,诊断结果(肺气肿/正常)是学习的标签。
注意:图1-8中分类问题的特征变量也可以是连续类型(年龄、PH值)。<