2017年08月_tyh70537

10月 08月 07月

原创集成聚类之EAC方法

刚看完一篇集成聚类的文章： Combining Multiple Clusterings Using Evidence Accumulation（EAC）做个简单的笔记，方便复习。和一般的集成聚类不同，EAC并不直接组合不同的划分，而是由这些不同的划分得到一个邻近度矩阵（proximity matrix），之后便可在这个邻近度矩阵上运用层次聚类中的单连接（single link)或平均连接(a

2017-08-13 20:04:19 7640 13

互信息（mutual information）和信息熵（information entropy）一样都是信息论里面的概念。信息熵在决策树里面用的比较多，可以度量样本集合的纯度。而互信息在聚类中有很大的作用，它可以衡量对同一个数据集不同的划分的之间的相似程度。假设Pa，PbP^a，P^b表示数据集XX上的两个不同的划分，XX包括n的样本。PaP^a包含kak_a个簇，PaP^a= {Ca1,Ca2,⋯

2017-08-13 16:18:13 5535

原创聚类有效性检验（Hubert'Γ ）

问题的提出假设现在有N个样本需要聚类，根据某个聚类算法我们把这N个样本聚为K个簇，现在问题是怎么确定现在的聚类结果是有意义的，而不是仅仅通过随机得到的。下面我们将构造Hubert’Γ 统计量，通过假设检验的方法来解决这一问题。以下内容大部分出至Jain和Dubes的聚类教程《Algorithms for Clustering Data》。部分理解可能有误，欢迎指出错误。所需用到的定义在具体论述之前，

2017-08-06 14:09:54 7662 1

原创单连接算法与全连接算法

这篇文章所提到的图论里面定义，参考我之前的文章http://blog.csdn.net/tyh70537/article/details/75309042定义这篇文章将详细介绍阈值图（threshold graph)，单连接算法和全连接算法的一般步骤。我前面已经提到过，单连接算法和全连接算法都是从一个邻近度矩阵（proximity matrix）开始。一般情况下，给定n个待聚类的对象，X={x1

2017-08-06 14:04:10 17336 3

原创 adaboost.M1与adaboost.M2差别比较

三种算法的差别adaboost是由Yoav Freund和Robert E. Schapire 首先提出来的一种用于二分类问题的集成方法，紧接着出现的adaboost.M1将二分类扩展到多分类问题，而adaboost.M2不仅可以处理多分类问题，还引入了置信度的概念，进一步扩展了adaboost算法。adaboost的简单介绍由H(x)=sign(∑t=1Tαtht(x))H(x)=sign(\

2017-08-04 12:01:46 9929 7

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

tyh70537的博客

原创集成聚类之EAC方法

原创利用互信息比较不同的聚类结果

原创聚类有效性检验（Hubert'Γ ）

原创单连接算法与全连接算法

原创 adaboost.M1与adaboost.M2差别比较

空空如也

空空如也

原创 集成聚类之EAC方法

原创 利用互信息比较不同的聚类结果

原创 聚类有效性检验（Hubert'Γ ）

原创 单连接算法与全连接算法

原创 adaboost.M1与adaboost.M2差别比较

空空如也

空空如也

原创集成聚类之EAC方法

原创利用互信息比较不同的聚类结果

原创聚类有效性检验（Hubert'Γ ）

原创单连接算法与全连接算法