任务描述
本关任务:根据本节课所学知识完成本关所设置的选择题。
相关知识
为了完成本关任务,你需要掌握:
- 高斯混合分布;
- 高斯混合聚类的核心思想。
高斯混合分布
高斯混合聚类认为数据集中样本的产生过程是由高斯混合分布所给出的。那什么是高斯混合分布呢?
其实很简单,以下面三个图为例:白色的样本点由高斯分布 A 产生、蓝色的样本点由高斯分布 B 产生、灰色的样本点由高斯分布 C 产生。
这 3 个高斯分布可能如下图所示:
如果仅仅想用一个分布来描述这 3 个高斯分布的话,我们下意识地可能会觉得如果我的分布如下图中红色部分所示,就相当于用一个分布描述了 3 个高斯分布。
上图中红色的分布其实就是高斯混合分布。高斯混合分布其实就是多个高斯分布的带权线性加和。例如上图中红色的分布等于0.2*高斯分布A+0.5*高斯分布B+0.3*高斯分布C
。
现在我们对高斯混合分布有了一定的感官上的认识,下面我们给出高斯混合分布的数学定义。设pM(x)为样本x所服从的概率密度函数(高斯混合分布的概率密度函数),则有:
并有:
其中αi表示第i个高斯分布的系数,p(x∣μi,Σi)为均值向量为μi,协方差矩阵为Σi的高斯分布。
所以在使用高斯混合聚类时,对于样本的产生过程有这样的假设:
-
首先,根据α1,α2,...,αk定义的先验分布选择高斯分布,其中αi为选择第i个高斯分布的概率(这也是所有α的和为1的原因)。
-
然后,根据被选择的混合成分的概率密度函数进行采样,从而生成相应的样本。
高斯混合聚类的核心思想
现在对样本集D={x1,x2,...,xm}使用高斯混合聚类划分成k个簇。高斯混合聚类会怎样想呢?其实很简单,如果能分别计算出x1属于1号簇的概率,x1属于2号簇的概率,...,xk属于k号簇的概率。接着将概率最大的簇作为聚类结果就好了。同样,样本集中的其他样本也如法炮制,就能实现对样本集的聚类。
那么接下来的问题就是怎样计算这个概率?
想要计算这个概率,可以令随机变量zj∈{1,2,...,k}表示样本xi是从1到k这k个高斯分布中的哪个高斯分布通过采样所得到的(假如z1=2表示x1这个样本属于第2个高斯分布,也就是说x1这个样本属于2号簇)。
有了zj这个随机变量后,就可以使用贝叶斯公式将pM(zj=i∣xj)(即xj属于第i个高斯分布的概率)计算出来了。
为了方便描述,我们不妨将pM(zj=i∣xj)记成τji。所以当高斯混合分布已知时,高斯混合聚类将会把样本集D划分为k个簇,每个样本xj的簇标记λj以如下方式确定:
编程要求
根据本关所学习到的知识,完成所有选择题。
开始你的任务吧,祝你成功!
1.下列说法正确的是? ABC
A、α的和为1
B、高斯混合分布是由多个高斯分布组成的
C、对数据可视化后发现数据大致可以分为4个簇,则高斯混合分布的k可以设置成4
D、高斯混合聚类使用距离来刻画聚类原型
2.若高斯混合聚类算法计算出的概率如下表所示,则
2
号样本属于( )号簇 A
A、1
B、2
C、3
D、4