漫谈 Clustering (3): Gaussian Mixture Model

最新推荐文章于 2024-07-16 17:56:45 发布

少林达摩祖师

最新推荐文章于 2024-07-16 17:56:45 发布

阅读量463

点赞数 1

分类专栏：机器学习

机器学习专栏收录该内容

84 篇文章 5 订阅

订阅专栏

by pluskid, on 2009-02-02, in Machine Learning 196 comments

cluster_logo 本文是“漫谈 Clustering 系列”中的第 4 篇，参见本系列的其他文章。

上一次我们谈到了用 k-means 进行聚类的方法，这次我们来说一下另一个很流行的算法：Gaussian Mixture Model (GMM)。事实上，GMM 和 k-means 很像，不过 GMM 是学习出一些概率密度函数来（所以 GMM 除了用在 clustering 上之外，还经常被用于 density estimation ），简单地说，k-means 的结果是每个数据点被 assign 到其中某一个 cluster 了，而 GMM 则给出这些数据点被 assign 到每个 cluster 的概率，又称作 soft assignment 。

得出一个概率有很多好处，因为它的信息量比简单的一个结果要多，比如，我可以把这个概率转换为一个 score ，表示算法对自己得出的这个结果的把握。也许我可以对同一个任务，用多个方法得到结果，最后选取“把握”最大的那个结果；另一个很常见的方法是在诸如疾病诊断之类的场所，机器对于那些很容易分辨的情况（患病或者不患病的概率很高）可以自动区分，而对于那种很难分辨的情况，比如，49% 的概率患病，51% 的概率正常，如果仅仅简单地使用 50% 的阈值将患者诊断为“正常”的话，风险是非常大的，因此，在机器对自己的结果把握很小的情况下，会“拒绝发表评论”，而把这个任务留给有经验的医生去解决。

废话说了一堆，不过，在回到 GMM 之前，我们再稍微扯几句。我们知道，不管是机器还是人，学习的过程都可以看作是一种“归纳”的过程，在归纳的时候你需要有一些假设的前提条件，例如，当你被告知水里游的那个家伙是鱼之后，你使用“在同样的地方生活的是同一种东西”这类似的假设，归纳出“在水里游的都是鱼”这样一个结论。当然这个过程是完全“本能”的，如果不仔细去想，你也不会了解自己是怎样“认识鱼”的。另一个值得注意的地方是这样的假设并不总是完全正确的，甚至可以说总是会有这样那样的缺陷的，因此你有可能会把虾、龟、甚至是潜水员当做鱼。也许你觉得可以通过修改前提假设来解决这个问题，例如，基于“生活在同样的地方并且穿着同样衣服的是同一种东西”这个假设，你得出结论：在水里有并且身上长有鳞片的是鱼。可是这样还是有问题，因为有些没有长鳞片的鱼现在又被你排除在外了。

在这个问题上，机器学习面临着和人一样的问题，在机器学习中，一个学习算法也会有一个前提假设，这里被称作“归纳偏执 (bias)”（bias 这个英文词在机器学习和统计里还有其他许多的意思）。例如线性回归，目的是要找一个函数尽可能好地拟合给定的数据点，它的归纳偏执就是“满足要求的函数必须是线性函数”。一个没有归纳偏执的学习算法从某种意义上来说毫无用处，就像一个完全没有归纳能力的人一样，在第一次看到鱼的时候有人告诉他那是鱼，下次看到另一条鱼了，他并不知道那也是鱼，因为两条鱼总有一些地方不一样的，或者就算是同一条鱼，在河里不同的地方看到，或者只是看到的时间不一样，也会被他认为是不同的，因为他无法归纳，无法提取主要矛盾、忽略次要因素，只好要求所有的条件都完全一样──然而哲学家已经告诉过我们了：世界上不会有任何样东西是完全一样的，所以这个人即使是有无比强悍的记忆力，也绝学不到任何一点知识。

这个问题在机器学习中称作“过拟合 (Overfitting)”，例如前面的回归的问题，如果去掉“线性函数”这个归纳偏执，因为对于 N 个点，我们总是可以构造一个 N-1 次多项式函数，让它完美地穿过所有的这 N 个点，或者如果我用任何大于 N-1 次的多项式函数的话，我甚至可以构造出无穷多个满足条件的函数出来。如果假定特定领域里的问题所给定的数据个数总是有个上限的话，我可以取一个足够大的 N ，从而得到一个（或者无穷多个）“超级函数”，能够 fit 这个领域内所有的问题。然而这个（或者这无穷多个）“超级函数”有用吗？只要我们注意到学习的目的（通常）不是解释现有的事物，而是从中归纳出知识，并能应用到新的事物上，结果就显而易见了。

没有归纳偏执或者归纳偏执太宽泛会导致 Overfitting ，然而另一个极端──限制过大的归纳偏执也是有问题的：如果数据本身并不是线性的，强行用线性函数去做回归通常并不能得到好结果。难点正在于在这之间寻找一个平衡点。不过人在这里相对于（现在的）机器来说有一个很大的优势：人通常不会孤立地用某一个独立的系统和模型去处理问题，一个人每天都会从各个来源获取大量的信息，并且通过各种手段进行整合处理，归纳所得的所有知识最终得以统一地存储起来，并能有机地组合起来去解决特定的问题。这里的“有机”这个词很有意思，搞理论的人总能提出各种各样的模型，并且这些模型都有严格的理论基础保证能达到期望的目的，然而绝大多数模型都会有那么一些“参数”（例如 K-means 中的 k ），通常没有理论来说明参数取哪个值更好，而模型实际的效果却通常和参数是否取到最优值有很大的关系，我觉得，在这里“有机”不妨看作是所有模型的参数已经自动地取到了最优值。另外，虽然进展不大，但是人们也一直都期望在计算机领域也建立起一个统一的知识系统（例如语意网就是这样一个尝试）。

废话终于说完了，回到 GMM 。按照我们前面的讨论，作为一个流行的算法，GMM 肯定有它自己的一个相当体面的归纳偏执了。其实它的假设非常简单，顾名思义，Gaussian Mixture Model ，就是假设数据服从 Mixture Gaussian Distribution ，换句话说，数据可以看作是从数个 Gaussian Distribution 中生成出来的。实际上，我们在 K-means 和 K-medoids 两篇文章中用到的那个例子就是由三个 Gaussian 分布从随机选取出来的。实际上，从中心极限定理可以看出，Gaussian 分布（也叫做正态 (Normal) 分布）这个假设其实是比较合理的，除此之外，Gaussian 分布在计算上也有一些很好的性质，所以，虽然我们可以用不同的分布来随意地构造 XX Mixture Model ，但是还是 GMM 最为流行。另外，Mixture Model 本身其实也是可以变得任意复杂的，通过增加 Model 的个数，我们可以任意地逼近任何连续的概率密分布。

每个 GMM 由个 Gaussian 分布组成，每个 Gaussian 称为一个“Component”，这些 Component 线性加成在一起就组成了 GMM 的概率密度函数：

根据上面的式子，如果我们要从 GMM 的分布中随机地取一个点的话，实际上可以分为两步：首先随机地在这个 Component 之中选一个，每个 Component 被选中的概率实际上就是它的系数 $\pi_k$ ，选中了 Component 之后，再单独地考虑从这个 Component 的分布中选取一个点就可以了──这里已经回到了普通的 Gaussian 分布，转化为了已知的问题。

那么如何用 GMM 来做 clustering 呢？其实很简单，现在我们有了数据，假定它们是由 GMM 生成出来的，那么我们只要根据数据推出 GMM 的概率分布来就可以了，然后 GMM 的个 Component 实际上就对应了个 cluster 了。根据数据来推算概率密度通常被称作 density estimation ，特别地，当我们在已知（或假定）了概率密度函数的形式，而要估计其中的参数的过程被称作“参数估计”。

现在假设我们有个数据点，并假设它们服从某个分布（记作 p(x) ），现在要确定里面的一些参数的值，例如，在 GMM 中，我们就需要确定 $\pi_k$ 、 $\mu_k$ 和 $\Sigma_k$ 这些参数。我们的想法是，找到这样一组参数，它所确定的概率分布生成这些给定的数据点的概率最大，而这个概率实际上就等于 $\prod_{i=1}^N p(x_i)$ ，我们把这个乘积称作似然函数 (Likelihood Function)。通常单个点的概率都很小，许多很小的数字相乘起来在计算机里很容易造成浮点数下溢，因此我们通常会对其取对数，把乘积变成加和 $\sum_{i=1}^N \log p(x_i)$ ，得到 log-likelihood function 。接下来我们只要将这个函数最大化（通常的做法是求导并令导数等于零，然后解方程），亦即找到这样一组参数值，它让似然函数取得最大值，我们就认为这是最合适的参数，这样就完成了参数估计的过程。

下面让我们来看一看 GMM 的 log-likelihood function ：

由于在对数函数里面又有加和，我们没法直接用求导解方程的办法直接求得最大值。为了解决这个问题，我们采取之前从 GMM 中随机选点的办法：分成两步，实际上也就类似于 K-means 的两步。

估计数据由每个 Component 生成的概率（并不是每个 Component 被选中的概率）：对于每个数据来说，它由第个 Component 生成的概率为
由于式子里的 $\mu_k$ 和 $\Sigma_k$ 也是需要我们估计的值，我们采用迭代法，在计算 $\gamma(i, k)$ 的时候我们假定 $\mu_k$ 和 $\Sigma_k$ 均已知，我们将取上一次迭代所得的值（或者初始值）。
估计每个 Component 的参数：现在我们假设上一步中得到的就是正确的“数据由 Component 生成的概率”，亦可以当做该 Component 在生成这个数据上所做的贡献，或者说，我们可以看作这个值其中有这部分是由 Component 所生成的。集中考虑所有的数据点，现在实际上可以看作 Component 生成了这些点。由于每个 Component 都是一个标准的 Gaussian 分布，可以很容易分布求出最大似然所对应的参数值：
其中 $N_k = \sum_{i=1}^N \gamma(i, k)$ ，并且 $\pi_k$ 也顺理成章地可以估计为。
重复迭代前面两步，直到似然函数的值收敛为止。

当然，上面给出的只是比较“直观”的解释，想看严格的推到过程的话，可以参考 Pattern Recognition and Machine Learning 这本书的第九章。有了实际的步骤，再实现起来就很简单了。Matlab 代码如下：

（Update 2012.07.03：如果你直接把下面的代码拿去运行了，碰到 covariance 矩阵 singular 的情况，可以参见这篇文章。）

function varargout = gmm(X, K_or_centroids)
% ============================================================
% Expectation-Maximization iteration implementation of
% Gaussian Mixture Model.
%
% PX = GMM(X, K_OR_CENTROIDS)
% [PX MODEL] = GMM(X, K_OR_CENTROIDS)
%
%  - X: N-by-D data matrix.
%  - K_OR_CENTROIDS: either K indicating the number of
%       components or a K-by-D matrix indicating the
%       choosing of the initial K centroids.
%
%  - PX: N-by-K matrix indicating the probability of each
%       component generating each point.
%  - MODEL: a structure containing the parameters for a GMM:
%       MODEL.Miu: a K-by-D matrix.
%       MODEL.Sigma: a D-by-D-by-K matrix.
%       MODEL.Pi: a 1-by-K vector.
% ============================================================
 
    threshold = 1e-15;
    [N, D] = size(X);
 
    if isscalar(K_or_centroids)
        K = K_or_centroids;
        % randomly pick centroids
        rndp = randperm(N);
        centroids = X(rndp(1:K), :);
    else
        K = size(K_or_centroids, 1);
        centroids = K_or_centroids;
    end
 
    % initial values
    [pMiu pPi pSigma] = init_params();
 
    Lprev = -inf;
    while true
        Px = calc_prob();
 
        % new value for pGamma
        pGamma = Px .* repmat(pPi, N, 1);
        pGamma = pGamma ./ repmat(sum(pGamma, 2), 1, K);
 
        % new value for parameters of each Component
        Nk = sum(pGamma, 1);
        pMiu = diag(1./Nk) * pGamma' * X;
        pPi = Nk/N;
        for kk = 1:K
            Xshift = X-repmat(pMiu(kk, :), N, 1);
            pSigma(:, :, kk) = (Xshift' * ...
                (diag(pGamma(:, kk)) * Xshift)) / Nk(kk);
        end
 
        % check for convergence
        L = sum(log(Px*pPi'));
        if L-Lprev < threshold
            break;
        end
        Lprev = L;
    end
 
    if nargout == 1
        varargout = {Px};
    else
        model = [];
        model.Miu = pMiu;
        model.Sigma = pSigma;
        model.Pi = pPi;
        varargout = {Px, model};
    end
 
    function [pMiu pPi pSigma] = init_params()
        pMiu = centroids;
        pPi = zeros(1, K);
        pSigma = zeros(D, D, K);
 
        % hard assign x to each centroids
        distmat = repmat(sum(X.*X, 2), 1, K) + ...
            repmat(sum(pMiu.*pMiu, 2)', N, 1) - ...
            2*X*pMiu';
        [dummy labels] = min(distmat, [], 2);
 
        for k=1:K
            Xk = X(labels == k, :);
            pPi(k) = size(Xk, 1)/N;
            pSigma(:, :, k) = cov(Xk);
        end
    end
 
    function Px = calc_prob()
        Px = zeros(N, K);
        for k = 1:K
            Xshift = X-repmat(pMiu(k, :), N, 1);
            inv_pSigma = inv(pSigma(:, :, k));
            tmp = sum((Xshift*inv_pSigma) .* Xshift, 2);
            coef = (2*pi)^(-D/2) * sqrt(det(inv_pSigma));
            Px(:, k) = coef * exp(-0.5*tmp);
        end
    end
end

函数返回的 Px 是一个 $N\times K$ 的矩阵，对于每一个 x_i ，我们只要取该矩阵第行中最大的那个概率值所对应的那个 Component 为 x_i 所属的 cluster 就可以实现一个完整的聚类方法了。对于最开始的那个例子，GMM 给出的结果如下：

gmm

相对于之前 K-means 给出的结果，这里的结果更好一些，左下角的比较稀疏的那个 cluster 有一些点跑得比较远了。当然，因为这个问题原本就是完全有 Mixture Gaussian Distribution 生成的数据，GMM （如果能求得全局最优解的话）显然是可以对这个问题做到的最好的建模。

另外，从上面的分析中我们可以看到 GMM 和 K-means 的迭代求解法其实非常相似（都可以追溯到 EM 算法，下一次会详细介绍），因此也有和 K-means 同样的问题──并不能保证总是能取到全局最优，如果运气比较差，取到不好的初始值，就有可能得到很差的结果。对于 K-means 的情况，我们通常是重复一定次数然后取最好的结果，不过 GMM 每一次迭代的计算量比 K-means 要大许多，一个更流行的做法是先用 K-means （已经重复并取最优值了）得到一个粗略的结果，然后将其作为初值（只要将 K-means 所得的 centroids 传入 gmm 函数即可），再用 GMM 进行细致迭代。

如我们最开始所讨论的，GMM 所得的结果（Px）不仅仅是数据点的 label ，而包含了数据点标记为每个 label 的概率，很多时候这实际上是非常有用的信息。最后，需要指出的是，GMM 本身只是一个模型，我们这里给出的迭代的办法并不是唯一的求解方法。感兴趣的同学可以自行查找相关资料。

Tags: Clustering, Unsupervised Learning

196 comments to 漫谈 Clustering (3): Gaussian Mixture Model

« Older Comments 1 2 3

weixue

November 10th, 2013 at 5:10 pm · Reply

你好，我在测试数据时候，遇到问题是矩阵本身不是奇异的，但是对角矩阵的对角元比较小例如0.003，d较大（超过100）的时候matlab处理精度不够运行出来det（covMatrix）=0，我加了缩放因子之后得到的likelyhood就特别大，是处理方式上有问题吗？谢谢指教
菜鸟一枚

November 27th, 2013 at 9:02 am · Reply

楼主，看了你的帖子我明白了GMM 的实现过程受益匪浅，请问楼主如果我想检测图像中的异常行为，首先我提取了正常行为的特征信息，然后用GMM为正常行为的特征空间建立模型。但是，检测时我有遇到问题，按照我的想法是将被测特征向量输入到训练好的GMM中，希望能得到一个概率，如果这个概率小于某个阈值它就不是正常行为，可是，我这里属于被测特征后，得到值非常大，请问楼主我该怎么应用GMM才可达到我预期的目的的（就是希望GMM能给出关于被测点的一个概率，然后，通过这个概率进行判断），当然我的数据属于离散的，因为针对的是图像，希望楼主给予答复十分感谢。
- pluskid
  
  November 30th, 2013 at 7:53 am · Reply
  
  你好，GMM 是连续型的概率分布，所以你不会得到一个 0 到 1 之间的概率值。我觉得你需要同时搜集正常数据和异常数据然后根据这些数据决定出一个合理的阈值出来，或者你也可以正常和异常各训练一个模型然后比较概率（密度）大小。
- luo mingqi
  
  December 12th, 2013 at 11:13 am · Reply
  
  你好，我也是用这个做图像的，能不能交流一下的？
luo mingqi

December 12th, 2013 at 11:12 am · Reply

这个程序我怎么的实现不了的，在的matlab上不能运行的？
im=imread(‘img1.jpg’);
im1=rgb2gray(im);
imshow(im1)
varargout = gmm(im1, 2);

不能调用的，谢谢了，我是菜鸟的，不要见笑
wenxingche

March 19th, 2014 at 10:31 pm · Reply

博主，你好。你写的这个关于EM算法的博文很好很强大。我用你的MATLAB代码跑了下数据。发现，最后算出来，每个数据的最后的概率都很低啊，10^(-5)数量级的概率值都算大的了。请问这个正常么？我感觉从道理上讲不通啊，我即便讲训练出来的均值代入训练好的模型，计算出来的概率也很小啊。
- pluskid
  
  March 20th, 2014 at 3:24 am · Reply
  
  连续型随机变量得到的是概率密度并不是概率值。
  - wenxingche
    
    March 20th, 2014 at 8:24 am · Reply
    
    我的意思是，概率密度函数是最后训练出来的模型啊，就是混合高斯模型中，每component的协方差矩阵和期望，以及每个component对应的概率pi.有了这个模型后，将一个数据X代入这个模型，对于每个component都会算出一个对应的概率，然后这个概率乘以相应的pi，最求就和，就是这个数据X，在这个混合模型下，算出的概率啊。我的理解不对么？？代码跑完，最后结果的PX，不就是所有训练数据X在各个component下的概率么？看起来都非常小啊。
    - pluskid
      
      March 20th, 2014 at 8:29 am
      
      那个是概率密度值，不是概率。如果你一定要算概率，连续型随机变量下单点的概率是零。如果你要算一个区域的概率，可以针对概率密度进行积分。
wenxingche

March 19th, 2014 at 10:40 pm · Reply

另外，博主，我觉得你给出的公式有问题，你在文中提到：

估计数据由每个 Component 生成的概率（并不是每个 Component 被选中的概率）：对于每个数据来说，它由第个 Component 生成的概率是Gamma(Xi,k)…根据EM算法原理和你给出公式的右边，我觉得应该是Gamma(k=j|Xi)
- pluskid
  
  March 20th, 2014 at 3:23 am · Reply
  
  Gamma 是个普通的函数，你这样改变形式的记号没有什么区别吧。
  - wenxingche
    
    March 20th, 2014 at 8:27 am · Reply
    
    哦，原来博主您只是将Gamma表示为一个普通的二元函数啊，我以为你的意思是表示的概率密度函数，所以我就理解为联合概率密度函数，我就觉得右边不对啊，原来是这样啊。
  - Yuan
    
    June 7th, 2018 at 4:31 pm · Reply
    
    你好，博主可以请问一下特征矩阵怎么做？我是学生物的，外行。想给行为数据分类，我还有标签但具体不知道怎么标上去，书都好虚，具体怎么匹配特征矩阵怎么训练？我都是用R做的，如果有R代码就更好了。一直找不见。
- wenxingche
  
  March 20th, 2014 at 11:39 am · Reply
  
  哦，对的，明白了。感谢博主的耐心解答。
wenxingche

March 24th, 2014 at 2:00 pm · Reply

另外，在请教博住一个问题。就是我看到很多资料都说用EM算法，比如估计GMM的参数，最后得到的都是局部最优解。我不理解的是，从EM算法的形式上看，优化的目标函数是凹函数，求最大化目标函数的解，这是个凹问题，应该有全局最优解啊，为何最后求解出来的只是局部最优解？
- pluskid
  
  March 24th, 2014 at 10:25 pm · Reply
  
  因为对两组变量分别 convex 并不代表一定 jointly convex，这里就是这种情况。
  - wenxingche
    
    March 25th, 2014 at 8:55 am · Reply
    
    呃~~，博主能稍微说具体点么？是哪两个变量呢?另外，个人愚见，总觉得，最后的优化函数是LOG函数，总是凹函数，应该最后结果总应该是全局最优吧~~
Lei Mo

April 27th, 2014 at 3:57 pm · Reply

博主你好，我也是浙大的研究生，我现在在做无线传感执行网方面的研究。我现在遇到一个问题，想请教一你。在上面的例子中，数据是二维的，服从一个二维正态分布，即离中心点越近，点就越稠密。如果我有一组数据，是三维的，也是服从正态分布：z=f(x,y)，其中f是二维正态分布的pdf，那么通过一组三维数据（x,y,z），该如何利用GMM来估计它的均值和方差呢？
- pluskid
  
  April 29th, 2014 at 10:49 am · Reply
  
  你好，我听你的描述似乎问题和 GMM 没有什么关系啊，如果你知道是服从正态分布的话，那么直接进行正态分布的参数估计应该就可以了吧？
Li Li

July 20th, 2014 at 4:09 pm · Reply

你好，想进一步请教一下你说的GMM的偏执问题，好比一个语音识别，里面有3类声音(男声，女声，机器声)，按照你说的GMM的偏执，认为这3类声音的数据分布就是3个正态分布的叠加（为什么有这样的结论？），那是不是也有这样的结论每一类声音就是一个正态分布，那其实所有的GMM就可以转化为数个SGM，那这样求解也就不需要什么EM算法了，直接求最大似然函数就可以了？
- pluskid
  
  July 21st, 2014 at 10:54 pm · Reply
  
  你好，GMM 的最大似然目标函数不是 convex 的，其实 EM 算法就是一种迭代的求解这个最大似然目标函数的一个局部最优解的算法。
e510589

August 23rd, 2014 at 9:17 pm · Reply

你好我想請問一下初始參數中的pMiu是什麼，以及這三個初始參數該如何設定是可以任意設嗎
- pluskid
  
  August 24th, 2014 at 1:09 am · Reply
  
  pMiu 就是文章里的 \mu，初始值可以任意设定，会得到不同的 local optimal solution
MO KE

September 25th, 2014 at 12:03 pm · Reply

我想问一下如何评价GMM的聚类效果，因为GMM跟K-Means不一样，GMM只是给出了每一个样本属于各个Gaussian的概率，而K-Means是严格的给出了这个样本属于某个类。GMM这个可以用跟K-Means一样最常用的正负类聚类评价方式吗？
- pluskid
  
  September 26th, 2014 at 6:53 am · Reply
  
  只要根据 GMM 的概率密度值去最大的进行 hard assignment 得到聚类结果就可以和 k-means 类似地进行评价。
  - MO KE
    
    September 28th, 2014 at 4:00 pm · Reply
    
    博主，还想请教您一下，我还是有些不大明白。就比如我想用聚类准确率
    
    P=TP/TP+FP这个公式来评价聚类精度,其中TP是指属于正类并被划分到正类的样本
    
    数，FP是指属于负类但被划分到正类的样本数。我想问一下GMM中如何统计TP的个
    
    数，也就是TP在GMM中代表什么，是代表每一个样本被划分到各个Gaussian模型的
    
    最大概率个数吗？也就是说GMM给出该个样本属于某个Gaussian的概率超过50%我
    
    就认为该样本聚类正确？还是怎么？比如，我有1000个样本，分到1O个GMM中，或者分到20个GMM中，都会给出每个样本属于各个GMM的概率，有的样本的概率超过50%，有的低于50%，是不是超过50%就认为聚类准确？还是什么
MO KE

September 28th, 2014 at 4:02 pm · Reply

博主，还想请教您一下，我还是有些不大明白。就比如我想用聚类准确率P=TP/TP+FP这个公式来评价聚类精度,其中TP是指属于正类并被划分到正类的样本数，FP是指属于负类但被划分到正类的样本数。我想问一下GMM中如何统计TP的个数，也就是TP在GMM中代表什么，是代表每一个样本被划分到各个Gaussian模型的最大概率个数吗？也就是说GMM给出该个样本属于某个Gaussian的概率超过50%我就认为该样本聚类正确？还是怎么？比如，我有1000个样本，分到1O个GMM中，或者分到20个GMM中，都会给出每个样本属于各个GMM的概率，有的样本的概率超过50%，有的低于50%，是不是超过50%就认为聚类准确？还是什么
- pluskid
  
  September 28th, 2014 at 11:39 pm · Reply
  
  你好，关于聚类的 evaluation，可以看 k-medoids 那篇里的末尾有提到一点：http://blog.pluskid.org/?p=40
nh

November 17th, 2014 at 8:18 pm · Reply

coef = (2*pi)^(-D/2) * sqrt(det(inv_pSigma));这个有问题吧。
另外对于奇异的协方差矩阵，求逆会出问题，这个怎么解决比较好，用pseudo-inverse？
- pluskid
  
  November 17th, 2014 at 9:39 pm · Reply
  
  协方差 singular 的时候可以加 regularization，参见这篇文章： http://freemind.pluskid.org/machine-learning/regularized-gaussian-covariance-estimation/ （其实文中已经写了协方差奇异会出现问题并且给过这个链接了……）
漫谈 Clustering (番外篇): Expectation Maximization | 阅读纵横

April 16th, 2015 at 1:41 pm · Reply

[…] Gaussian Mixture Model 的迭代求解方法可以算是 EM 算法最典型的应用，而最开始说的 K-means […]
【machine learning】GMM算法（Python版） | 阿里欧歌

May 9th, 2015 at 10:05 am · Reply

[…] 得出一个概率有很多好处，因为它的信息量比简单的一个结果要多，比如，我可以把这个概率转换为一个 score ，表示算法对自己得出的这个结果的把握，参考pluskid大神博文 […]
GMM高斯混合模型学习笔记（EM算法求解） – 剑客|关注科技互联网

June 12th, 2015 at 10:11 am · Reply

[…] 主要参考资料：《Pattern Recognization and Machine Learning》帮助理解：http://blog.pluskid.org/?p=39 […]
ALLEN

March 21st, 2016 at 6:47 am · Reply

>> gmm(X, K_or_centroids)
Undefined function or variable ‘X’.
这个X怎么定义？
- Annabi
  
  June 6th, 2016 at 9:16 pm · Reply
  
  我理解X就是数据集合，这个可以从实验中得出，或者就是实际分布的数据。例如图像的灰度级，对应着直方图（一种概率密度函数），这里的X就是这些灰度级，一般是0-255
Annabi

June 6th, 2016 at 9:13 pm · Reply

请教博主，程序中只使用了数据点X，都没有提到这些数据点X对应的真实的概率密度函数，通过E-M算法得到的参数pMiu，pPi，pSigma后，对应的GMM和实际的概率密度函数的关系没有提及到。其实我有一个简单的想法，能否假设有pMiu,pPi,pSigma组成了拟合成其中一个Px，将这个Px和真实的概率密度函数，假设为hx，求Px和hx的均方差，设此均方差为目标函数，使目标函数最小。使用一些全局最优算法来求得pMiu等参数呢？
faye

November 29th, 2016 at 8:23 pm · Reply

博主，你的训练数据是由 Mixture Gaussian Distribution 生成的数据，具体怎么实现的啊，怎么从这个混合分布模型中产生随机点啊，我也生成这些点，能提供一份代码吗
wangzz

February 8th, 2017 at 4:50 pm · Reply

请教博主，有几个问题
1.在做GMM之前需要对样本数据进行分析么，看看是否可以用GMM，如何做？
2.在数据进入GMM前，对数据处理的工作有哪些？标准化？
3.离散、连续混合特征可以做GMM么
skya

October 30th, 2018 at 7:05 pm · Reply

多谢博主，才看了个开头，就吸引住了。