无监督学习概论
无监督学习的基本原理
无监督学习是从无标注的数据中学习数据的统计规律或者说内在的结构的机器学习,主要包括聚类,降维,概率估计。无监督学习可以用与数据分析或监督学习的前处理
X
=
[
x
11
.
.
.
.
x
1
N
.
.
.
.
.
.
.
.
.
.
x
M
1
.
.
.
.
x
M
N
]
X=\begin{bmatrix} x_{11} & .... &x_{1N} \\ ... & .... &... \\ x_{M1} & .... &x_{MN} \end{bmatrix}
X=⎣⎡x11...xM1............x1N...xMN⎦⎤
其中为N个样本M维向量组成
它分为3类
- 数据纵向结构
- 数据横向结构
- 数据横向和纵向结构
基本问题
- 聚类
把样本中相似的集合分配到同一类,不相似的样本分配到不同类,它又有软聚类和硬聚类 - 降维
从高维空间转换到低维空间,通过降维更好的反映数据的结构 - 概率模型估计
假设训练数据是从一个概率模型生成的,由训练数据学习概率模型的参数
机器学习三要素
- 模型
- 策略
- 算法
无监督学习方法
- 聚类
可以帮助发现数据中的统计规律 - 降维
帮助发现高维数据中的统计规律 - 话题分析
发现文本集合中每个文件的话题,而话题由单词的集合表示 - 图分析
发掘隐藏在图中的统计规律或潜在结构