无监督学习是从无标注的数据中学习数据的统计规律或者说内在结构的机器学习,主要包括聚类、降维、概率估计。
可以考虑发掘数据的纵向结构,把相似的样本聚到同类,即对数据进行聚类。还可以考虑发掘数据的横向结构,把高维空间的向量转换为低维空间的向量,即对数据进行降维。也可以同时考虑发掘数据的纵向和横向结构,假设数据由含有隐式结构的概率模型生成得到,从数据中学习该概率模型。
层次聚类法、k均值聚类是硬聚类方法。
高斯混合模型EM算法是软聚类方法。
主成分分析、潜在语义分析是降维方法。
概率潜在语义分析、潜在狄利克雷分配是概率模型估计方法。
无监督学习方法
1、聚类
a、硬聚类。一个样本只能属于一个类。模型是函数
b、软聚类。一个样本可以属于多个类。模型是条件概率分布
(发掘数据的纵向结构,把相似的样本聚到同类)
2、降维
降维是将训练数据中的样本(实例)从高维空间转换到低维空间。降维的模型是函数,其中
是样本的高维度向量,
是样本的低维向量,
是参数。函数可以是线性的函数也可以是非线性的函数。
3、概率模型估计
概率模型包括混合模型、概率图模型等。
概率模型表示为条件概率分布
,其中随机变量x表示观察数据,可以是连续变量也可以是离散变量;随机变量z表示隐式结构,是离散变量;随机变量
表示参数。模型是混合模型时,z表示成分的个数;模型是概率模型时,z表示图的结构。
根据贝叶斯公式:
假设先验概率服从均匀分布,只需要估计条件概率分布