EM算法像是k-means的应用场景,比如双峰分布的数据,k-means方法,将其看成2-means聚类的方法处理场景。
k-means算法,也被称为k-平均或k-均值,是一种广泛使用的聚类算法,或者成为其他聚类算法的基础。
假定输入样本为,则算法步骤为:
(1)选择初始的k个簇中心u1,u2,...,uk
(2)将样本xi标记为距离簇中心最近的簇:
(3)更新簇中心:
(4)重复最后两步,直到满足终止条件。(迭代次数/簇中心变化率/最小平方误差MSE)
思考:经典的K-means聚类方法,能够非常方便的将未标记的样本分成若干簇;但无法给出某个样本属于该簇的后验概率。
从直观理解猜测GMM的参数估计
随机变量X是有K个高斯分布混合而成,取各个高斯分布的概率为,第i个高斯分布的均值为。若观测到随机变量X的一系列样本,试估计参数。
建立目标函数
由于在对数函数里面又有加和,我们没法直接用求导解方程的办法直接求得极大值。分成两步。
第一步&#x