Supervised Learning
监督学习指的是学习input到output的映射关系(mapping),监督学习最主要的特征是会给出answers,即对每个input,给出唯一对应的output答案;并在学习后,通过给出没有output的input,猜测可能的output。
i
n
p
u
t
→
o
u
t
p
u
t
input \to output
input→output
例子:
监督学习有很多种任务种类,例如:
- Regression,回归,从许多可能的值中预测出一个数值
- Classification,分类
Regression
从无数可能的取值中预测一个值(或者说,映射是连续的)。以预测房价为例:
- input:房屋的大小
- output:可能的价格
上图示例了对已知数据集,两种不同拟合方式的获得的不同映射关系。在后面的课程中会学习如何决定拟合方式。
Classification
输出是有限的离散值(class或category,都可以),将不同的input分类。
categories可以是数字,也可以是其他的,例如猫,狗之类的标签。
输入也可以不只是单一的,可以是多维的,例如,在进行细胞分类中,可以将细胞大小和病人年龄共同张成向量空间,并进行分类,如下图所示。
Unsupervised Learning
不给出任何对应output(或者说绑定label)的input,只是发掘未标记数据中的可能特征、模式或结构。
非监督学习的任务种类包括:
- Clusters,聚类,将未标记的数据放在不同集群中,甚至自己提取组内数据的共同特征
- Anomaly Detection,异常检测,检查异常行为
- Dimensionality reduction,降维,将一个大数据集,在不降低过多精度的情况下,压缩成更小的数据集
Clusters
在没有监督的条件下,对未标记数据进行自动分类;又是也包括提取组内数据的共同特征。
例如,谷歌新闻会检索所有的当天新闻,并将可能相关的新闻整理成一组推送
再比如,DNA数据的聚类,从而发掘出不同基因之间的潜在联系性(比如不喜欢吃蔬菜和某些先天性疾病的关联);如下图所示,颜色值代表基因的不同表达程度,每列是一个样本,每行是样本的不同基因。可以通过聚类将样本进行分类,发掘其中的潜在联系。