![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
聚类系列
文章平均质量分 81
mimihou
这个作者很懒,什么都没留下…
展开
-
Clustering (5): Hierarchical Clustering
Hierarchical Clustering 正如它字面上的意思那样,是层次化的聚类,得出来的结构是一棵树,如右图所示。在前面我们介绍过不少聚类方法,但是都是“平坦”型的聚类,然而他们还有一个更大的共同点,或者说是弱点,就是难以确定类别数。实际上,(在某次不太正式的电话面试里)我曾被问及过这个问题,就是聚类的时候如何确定类别数。 我能想到的方法都是比较 naive 或者比较不靠谱的转载 2012-11-22 15:01:40 · 520 阅读 · 0 评论 -
Clustering (1): k-means
Clustering 中文翻译作“聚类”,简单地说就是把相似的东西分到一组,同 Classification (分类)不同,对于一个 classifier ,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一个 classifier 会从它得到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,这种提供训练数据的过程通常叫做supervised learning (转载 2012-11-22 14:29:09 · 717 阅读 · 0 评论 -
Clustering (3): Gaussian Mixture Model
这次我们来说一下另一个很流行的算法:Gaussian Mixture Model (GMM)。事实上,GMM 和 k-means 很像,不过 GMM 是学习出一些概率密度函数来(所以 GMM 除了用在 clustering 上之外,还经常被用于 density estimation ),简单地说,k-means 的结果是每个数据点被 assign 到其中某一个 cluster 了,而 GMM 则给转载 2012-11-22 14:37:59 · 412 阅读 · 0 评论 -
Clustering (番外篇): Expectation Maximization
Expectation Maximization (EM) 是一种以迭代的方式来解决一类特殊最大似然 (Maximum Likelihood) 问题的方法,这类问题通常是无法直接求得最优解,但是如果引入隐含变量,在已知隐含变量的值的情况下,就可以转化为简单的情况,直接求得最大似然解。 我们会看到,上一次说到的 Gaussian Mixture Model 的迭代求解方法可以算是 E转载 2012-11-22 14:45:04 · 405 阅读 · 0 评论 -
Clustering (番外篇): Vector Quantization
在接下去说其他的聚类算法之前,让我们先插进来说一说一个有点跑题的东西:Vector Quantization 。这项技术广泛地用在信号处理以及数据压缩等领域。事实上,在 JPEG 和 MPEG-4 等多媒体压缩格式里都有 VQ 这一步。 Vector Quantization 这个名字听起来有些玄乎,其实它本身并没有这么高深。大家都知道,模拟信号是连续的值,而计算机只能处理转载 2012-11-22 14:51:10 · 563 阅读 · 0 评论 -
Clustering (番外篇): Dimensionality Reduction
机器学习应用到各个领域里,会遇到许多不同类型的数据要处理:图像、文本、音频视频以及物理、生物、化学等实验还有其他工业、商业以及军事上得到的各种数据,如果要为每一种类型的数据都设计独立的算法,那显然是非常不现实的事,因此,机器学习算法通常会采用一些标准的数据格式,最常见的一种格式就是每一个数据对应欧几里德空间里的一个向量。 如果原始的数据格式不兼容,那么就需要首先进行转换,这个过程通转载 2012-11-22 14:49:35 · 750 阅读 · 0 评论 -
Clustering (2): k-medoids
我们了解了一个最基本的 clustering 办法 k-means ,这次要说的 k-medoids 算法,其实从名字上就可以看出来,和 k-means 肯定是非常相似的。事实也确实如此,k-medoids 可以算是 k-means 的一个变种。 k-medoids 和 k-means 不一样的地方在于中心点的选取,在 k-means 中,我们将中心点取为当前 cluster转载 2012-11-22 14:34:03 · 860 阅读 · 0 评论 -
Clustering (4): Spectral Clustering
如果说 K-means 和GMM 这些聚类的方法是古代流行的算法的话,那么这次要讲的 Spectral Clustering 就可以算是现代流行的算法了,中文通常称为“谱聚类”。由于使用的矩阵的细微差别,谱聚类实际上可以说是一“类”算法。 Spectral Clustering 和传统的聚类方法(例如 K-means)比起来有不少优点: 和 K-medoids 类似,Spe转载 2012-11-22 14:41:46 · 323 阅读 · 0 评论