常见标志
M
M
M 样本数量
X
X
X 自变量
Y
Y
Y 因变量
(
X
,
Y
)
(X,Y)
(X,Y) 某个样本
(
X
n
,
Y
n
)
(X^n,Y^n)
(Xn,Yn) 第
n
n
n行
监督学习 supervised learning
监督学习算法学习预测输入、输出或者
X
X
X到
Y
Y
Y的映射,是常用的算法。比如给定包含
x
,
y
x, y
x,y的数据集,学
x
x
x到
y
y
y的映射关系。
监督学习算法包括两类:回归算法和分类算法。
- 回归算法 Regression:用于预测连续值 y y y。输出值为无限个。
- 分类算法 Classification:用于预测离散值
y
y
y。输出值为有限个。
总之,监督学习将输入 x x x映射到 y y y,学习算法从引用正确的答案中学习。
无监督学习 unsupervised learning
无监督学习:给定不带标签的数据集,利用学习算法学习其中的某种结构或某种模式。是最广泛使用的机器学习形式。
无监督学习算法包括:聚类算法(clustering algorithm)、异常检测算法(Anomaly detection algorithm)、降维算法(Dimensionality reduction algorithm)
- 聚类算法,将不带标签的数据划分为不同的集群。
- 异常检测,检验出异常的数据。
- 降维算法,在尽可能减少丢失数据的基础上,将数据的特征数量减少。
监督学习与无监督学习对比图