狄利克莱过程模型(一)：非参数贝叶斯无限混合模型和Dirichlet过程

最新推荐文章于 2025-04-13 17:53:55 发布

duskwaitor

最新推荐文章于 2025-04-13 17:53:55 发布

阅读量1w

点赞数 9

本文链接：https://blog.csdn.net/duskwaitor/article/details/41677585

版权

[作者按] 这篇文章是根据edwin Chen的博客 http://blog.echen.me/2012/03/20/infinite-mixture-models-with-nonparametric-bayes-and-the-dirichlet-process/

和剑桥大学的一个ppt，http://mlg.eng.cam.ac.uk/zoubin/talks/uai05tutorial-b.pdf，还有fonnes beck在Bios366的讲义，http://nbviewer.ipython.org/github/fonnesbeck/Bios366/blob/master/notebooks/Section5_2-Dirichlet-Processes.ipynb，以及其他材料汇集整理而成。

当前，我们进行聚类使用的方法比如kmeans/Gaussian Mixture modeling，都需要事先指定好要聚多少类，在这里我们向大家介绍一种不需要指定聚多少类的方法，这种方法可以根据实际情况进行聚类，当往数据集中添加新数据时，产生的聚类数量可能会增多。这种方法就是nonparametrics bayes方法：非参数贝叶斯方法。

A generative story

这个用于从任何数据集中需要聚类的生成模型是这样工作的：我们首先设想有无数潜在群体，每个群体用一组参数来描述，举例来说，一个组可以符合一个参数为mui和lambdai的高斯分布，而这些组的每对参数都来自基本分布G0.数据集中的数据是这样生成的：

1.选择一个聚簇

2.从这个聚簇中进行抽样，产生一个数据点

举个例子，我们问10个朋友，他们昨天吃了多少种披萨、萨拉和米饭，我们得到的多个小组可能是这个样子：

A Gaussian centered at (pizza = 5000, salad = 100, rice = 500) (i.e., a pizza lovers group).
A Gaussian centered at (pizza = 100, salad = 3000, rice = 1000) (maybe a vegan group).
A Gaussian centered at (pizza = 100, salad = 100, rice = 10000) (definitely Asian).

当Alice早上醒来决定吃些东西的时候，她会这么想，我今天很想吃pizza，于是她从pizza的高斯分布中进行抽样，然后我们的大问题就是：我们该怎么样把我们的朋友们分配到一个群组中去？

一般来讲，关于这个问题，我们应用dirichlet过程模型来解决，说到dirichlet过程，首先得讲dirichlet分布长什么样子，它的期望是什么方差是什么？

这就是狄利克莱分布的长相：