- 博客(5)
- 收藏
- 关注
原创 集成聚类之EAC方法
刚看完一篇集成聚类的文章: Combining Multiple Clusterings Using Evidence Accumulation(EAC) 做个简单的笔记,方便复习。和一般的集成聚类不同,EAC并不直接组合不同的划分,而是由这些不同的划分得到一个邻近度矩阵(proximity matrix),之后便可在这个邻近度矩阵上运用层次聚类中的单连接(single link)或平均连接(a
2017-08-13 20:04:19 7640 13
原创 利用互信息比较不同的聚类结果
互信息(mutual information)和信息熵(information entropy)一样都是信息论里面的概念。信息熵在决策树里面用的比较多,可以度量样本集合的纯度。而互信息在聚类中有很大的作用,它可以衡量对同一个数据集不同的划分的之间的相似程度。假设Pa,PbP^a,P^b表示数据集XX上的两个不同的划分,XX包括n的样本。PaP^a包含kak_a个簇,PaP^a= {Ca1,Ca2,⋯
2017-08-13 16:18:13 5535
原创 聚类有效性检验(Hubert'Γ )
问题的提出假设现在有N个样本需要聚类,根据某个聚类算法我们把这N个样本聚为K个簇,现在问题是怎么确定现在的聚类结果是有意义的,而不是仅仅通过随机得到的。下面我们将构造Hubert’Γ 统计量,通过假设检验的方法来解决这一问题。以下内容大部分出至Jain和Dubes的聚类教程《Algorithms for Clustering Data》。部分理解可能有误,欢迎指出错误。所需用到的定义在具体论述之前,
2017-08-06 14:09:54 7662 1
原创 单连接算法与全连接算法
这篇文章所提到的图论里面定义,参考我之前的文章http://blog.csdn.net/tyh70537/article/details/75309042定义这篇文章将详细介绍阈值图(threshold graph),单连接算法和全连接算法的一般步骤。 我前面已经提到过,单连接算法和全连接算法都是从一个邻近度矩阵(proximity matrix)开始。一般情况下,给定n个待聚类的对象,X={x1
2017-08-06 14:04:10 17336 3
原创 adaboost.M1与adaboost.M2差别比较
三种算法的差别adaboost是由Yoav Freund和Robert E. Schapire 首先提出来的一种用于二分类问题的集成方法,紧接着出现的adaboost.M1将二分类扩展到多分类问题,而adaboost.M2不仅可以处理多分类问题,还引入了置信度的概念,进一步扩展了adaboost算法。adaboost的简单介绍 由H(x)=sign(∑t=1Tαtht(x))H(x)=sign(\
2017-08-04 12:01:46 9929 7
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人