笔记
buyan3
这个作者很懒,什么都没留下…
展开
-
迭代次数设为4
因为设为4 设为100 设为10000得出的聚类结果是一样的,质量都不高而本文的目的就是删除相似性小的数据实例,然后集成以获得更好的聚类结果所以不管是4还是10000 有一个聚类结果就行,即使它不准确...原创 2021-12-27 11:40:23 · 627 阅读 · 0 评论 -
9.基于证据提升的聚类集成算法
主要讲述钟才明教授于2019年在Pattern Recognition上发表的一篇论文《Ensemble clustering based on evidence extracted form the co-association matrix》。在5中我们已经讲述过,证据积累模型是原始数据集向共协矩阵的转换。共协矩阵中存在一些噪声数据,本文的目的是去除共协矩阵中的噪声数据后,将重构后的每个矩阵都采用Ncut算法从而得到多个聚类结果,最后用一个内部评价性指标MM选择最优聚类。共协矩阵中的频率是从0-1的原创 2021-12-27 11:39:37 · 688 阅读 · 0 评论 -
8.最大最小相似度(摘自Robust path-based spectral clustering)
常虹教授在Robust path-based spectral clustering中基于基于路径的方法提出了基于路径的相似度(最大最小相似度)。我们表示n个点的数据集byX={x1,x2,…,xn}。这些数据点可以表示为一个完全连通的图,并有与这些点对应的顶点。图中的每条边(i, j)被赋予一个权重Sij,反映了与高斯核相似的xi和xj之间的原始相似性:对于i=1,2…n,除了S´ij=0而不是1。这里缩放参数σ控制了S´ij随着Xi和Xj之间的欧式距离下降的速度。这实际是谱聚类中定义亲和矩阵的一种常原创 2021-12-27 11:38:24 · 1017 阅读 · 0 评论 -
7.最大最小距离算法与最大最小距离
7.最大最小距离算法与最大最小距离最大最小距离算法最大最小距离算法是一种聚类算法。算法描述:(1):任意选取一个样本模式作为第一聚类中心K1。(2):选择离Z1最远欧氏距离的模式样本作为第二聚类中心K2。(3):逐个计算每个模式样本与已确定的所有聚类中心之间的欧式距离,并选出其中的最小欧式距离。也就是说,所有的模式样本分别和K1,K2、…Kn求欧式距离,每个模式样本会分别得到和K1、K2、…Kn的欧式距离,从n者中选择小的那个。如果模式样本数是N,那么就会选出N个最小距离。(4):在所有最小距原创 2021-10-04 22:02:57 · 4110 阅读 · 0 评论 -
6.Ncut算法
6.Ncut(Normalized cut)算法归一化切割(normalized cut)是一种分群技术,在数据处理和图像处理方面有很广的运用。用其实现图像分割的思路是,把一个图片看成一个图(graph), 然后计算权重图(weighted graph),然后分割成一些具有相同特征(纹理, 颜色,明度等)的区域。在讲述归一化切割前,先讲讲最小化切割(min cut),把G=(V,E)分成两个子集A,B。另:其中w(u,v)就是权重,最小化分割是让上式值最小的分割。但是最小化分割会出现偏差,如下图原创 2021-10-04 21:57:48 · 3162 阅读 · 0 评论 -
5.证据积累模型与共协矩阵
证据累积模型在4中我们已经讲述了聚类集成算法的有关概念,其中提到有三种方法可以表示基聚类集的三种方式:二进制矩阵,共协矩阵以及超图。 证据累积模型是聚类集成算法中表示基聚类的一种重要方法,即原始数据向共协矩阵的转换从而进行集成。共协矩阵(Co-association matrix) 共协矩阵可以表示原始数据集中的某两个数据实例在同一簇中的出现频率,数学定义如下: 图1 共协矩阵数学定义共协矩阵形式如图2:...原创 2021-10-04 21:55:16 · 1019 阅读 · 0 评论 -
4.聚类集成算法
概念现有的聚类算法不具备通用性,没有一种算法可以解决所有的聚类问题。总结一下聚类算法的缺点:1)参数的设定很大程度上决定聚类结果;2)大多数聚类算法对于数据集的真实簇个数难以判断;3)不同的聚类算法处理同一数据集可能产生不同的聚类结果。在现实中,多维数据集可能具有各种形状或结构,其簇结构使用单一聚类算法无法分辨。于是引出了聚类集成这一算法。聚类集成算法,简单来说就是用聚类算法多生成几次聚类结果,然后寻找一个包含所有聚类结果“优点”的聚类结果。聚类集成学术一些的定义是:聚类集成指的是给定一个聚类结果集合原创 2021-10-03 22:46:54 · 2617 阅读 · 0 评论 -
3.聚类算法解决的实际问题
1.基于用户位置信息的商业选址2.中文地址标准化处理3.国家电网用户画像4.非人恶意流量识别5.求职信息完善6.搜索引擎查询聚类以进行流量推荐7.生物种群固有结构认知8.保险投保者分组9.网站关键词来源聚类整合10.图像分割...原创 2021-10-01 23:12:59 · 1041 阅读 · 0 评论 -
2.常用聚类算法
2.常用聚类算法聚类算法可大致分为四类:划分方法、层次方法、图聚类方法、基于密度的方法。划分方法对于划分方法这里详细介绍划分方法的代表——K-means算法,K-means算法是最经典的聚类算法之一,该算法处理效率高,且能处理大规模数据。算法流程如下:1.根据事先取好的簇数k,随机选取k个点,作为聚类中心;2.计算每个点分别到k个聚类中心的聚类,然后将该点分到最近的聚类中心,这样就形成了k个簇;3.再重新计算每个簇的中心(均值);4.重复以上2~4步,直到质心的位置的变化小于某个阈值或者达到设原创 2021-09-22 23:29:01 · 896 阅读 · 0 评论 -
1.聚类概念
1.聚类的概念聚类分析是分类问题中的一种统计分析方法,是模式识别,数据挖掘以及机器学习的一个重要领域。聚类分析主要解决两方面的问题,一类是检测数据集中的数据是否有簇的结构,另一类是研究数据集存在什么样的簇结构。聚类的概念,迄今为止还没有一个公认的定义,这里给出Everitt在1974年关于聚类所下的定义 :一个 簇内的实体是相似的,不同簇的实体是不相似的;一个簇是测试空间中点的会聚,同一簇的任意两个点间的距离小于不同簇的任意两个点间的距离;簇可以描 述为一个包含密度相对较高的点集的多维空间中的连通区域,原创 2021-09-22 23:27:19 · 604 阅读 · 0 评论