![](https://img-blog.csdnimg.cn/20210924182633433.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
聚类算法
数据挖掘-聚类算法
抢我糖还想跑
这个作者很懒,什么都没留下…
展开
-
论 文 简 述
t 分布是什么对于“t分布”这个名字,这三个字,不要考虑太多。简单理解,它就是一种距离的度量。而且还是最常见的欧式距离的度量的复杂版本。所以最直观理解就是这样:如上图,两个聚类中心:C1 C2,三个数据点:A B C参考FCM算法中,欧氏距离计算隶属度方法:隶属度C1C2A11+5\frac{1}{1+5}1+5151+5\frac{5}{1+5}1+55B3.83.8+2.5\frac{3.8}{3.8+2.5}3.8+2.53.82.53.8+2.5\原创 2022-03-29 13:43:25 · 504 阅读 · 0 评论 -
深度图GMM聚类核心源码+数据可视化
class AE_layer(nn.Module): def __init__(self,layer_type,n_vis,n_hid,activation=nn.ReLU(),w_init=None): super(AE_layer,self).__init__() encoder_layers = [] #---------------------线性连接的方式----------- layer = nn.Linear(n_vis,n_hid) # -------------获取原创 2021-09-17 19:19:12 · 531 阅读 · 1 评论 -
深度图嵌入聚类图例
深度FCM+图嵌入IDEC+图嵌入原创 2021-08-10 14:42:07 · 411 阅读 · 0 评论 -
<Deep Multi-view Subspace Clustering with Unified and Discriminative Learning>笔记
原创 2021-08-08 12:35:49 · 391 阅读 · 0 评论 -
<SPECTRAL-SPATIAL CLUSTERING OF HYPERSPECTRAL IMAGE BASED ON LAPLACIAN REGULARIZED DEEP SUBSPACE >笔记
二维卷积三维卷积原创 2021-08-08 12:34:29 · 129 阅读 · 0 评论 -
<Deep Low-Rank Subspace Clustering>笔记
原创 2021-08-08 12:32:54 · 367 阅读 · 0 评论 -
<Deep Subspace Clustering Networks -NIPS2017>笔记
原创 2021-08-08 12:28:50 · 337 阅读 · 0 评论 -
<Deep Clustering with Sample-Assignment Invariance Prior>笔记
原创 2021-08-08 12:24:52 · 174 阅读 · 0 评论 -
FCM(Fuzzy K-means)经典模糊划分聚类
原创 2021-08-07 00:06:08 · 388 阅读 · 0 评论 -
K-means经典划分聚类
原创 2021-08-07 00:06:01 · 140 阅读 · 0 评论 -
层次聚类总结(AGNES、CURE、rock、Chameleon)
原创 2021-08-07 00:05:53 · 494 阅读 · 0 评论 -
Chameleon : Hierarchical Clustering Using Dynamic Modeling及其改进
基本思想:Chameleon 算法没有固定的模型,它动态的考察自身和其他簇,然后动态的适应、合并簇。回忆一下,聚类算法只要考察的两点:(1) 簇中元素的连接情况(2) 簇与簇之间的邻近性当且仅当合并后的结果簇,与原来的两个簇的形状与连接结构极为相似时,即合并后的结果簇与自己的局部具有自相似性时,此情形下合并这两个簇。通过考虑集群的连通性以及紧密性来决定最相似的两子簇,它使用了一种新颖的方法来对每一对簇之间的连通性和紧密度进行建模,从而考虑到集群本身的内部特征。因此,它不依赖于静态用户提供的模型,原创 2021-08-07 00:05:43 · 366 阅读 · 1 评论 -
VAE->VaDE->DGG 三篇论文演化讲起
一、变分自编码(VAE)如上图所示,假设有两张训练图片,一张是全月图,一张是半月图,经过训练我们的自编码器模型已经能无损地还原这两张图片。接下来,我们在z上,两张图片的编码点中间处取一点,然后将这一点交给解码器,我们希望新的生成图片是一张清晰的图片(类似3/4全月的样子)。但是,实际的结果是,生成图片是模糊且无法辨认的乱码图。一个比较合理的解释是,因为编码和解码的过程使用了深度神经网络,这是一个非线性的变换过程,所以在z上点与点之间的迁移是非常没有规律的。也就是说中间隐层z的分布,我们是未知的,因此我们原创 2021-08-04 11:32:30 · 2715 阅读 · 2 评论 -
DGG算法流程图解+问题
流程问题原创 2021-08-05 21:12:16 · 488 阅读 · 0 评论 -
<Variational Deep Embedding An Unsupervised and Generative Approach to Clustering>笔记
直观分析VaDE神经网络模型:原创 2021-08-03 12:45:25 · 1074 阅读 · 0 评论 -
深度模型聚类思路
原创 2021-07-31 10:34:21 · 276 阅读 · 0 评论 -
<Deep_Clustering_by_Gaussian_Mixture_Variational_Autoencoders_With_Graph_Embedding_ICCV_2019_>代码
Siamese NetworkSiamese network :“连体的神经网络”,神经网络的“连体”是通过共享权值来实现的,如下图所示。共享权值是左右两个神经网络的权重一模一样。主要作用:衡量两个输入的相似程度。孪生神经网络有两个输入(Input1 and Input2),将两个输入feed进入两个神经网络(Network1 and Network2),这两个神经网络分别将输入映射到新的空间,形成输入在新的空间中的表示。通过Loss的计算,评价两个输入的相似度。适用场景:类别数多,但每个类别的样本原创 2021-08-04 10:22:47 · 781 阅读 · 0 评论 -
<Deep_Clustering_by_Gaussian_Mixture_Variational_Autoencoders_With_Graph_Embedding_ICCV_2019_>笔记
个人理解步骤一步骤二步骤三步骤四步骤五模型图原创 2021-08-04 07:50:41 · 616 阅读 · 0 评论 -
论DEC<Deep Embedded Clustering>的由来
一、SNE-(不稳定的)非监督降维二、Symmetric SNE - 解决缺点1三、t-SNE- 解决缺点2四、DEC参考:http://www.datakit.cn/blog/2017/02/05/t_sne_full.htmlhttps://zhuanlan.zhihu.com/p/53432553 1https://zhuanlan.zhihu.com/p/50365577 2https://zhuanlan.zhihu.com/p/44808113https://zhu原创 2021-08-03 14:34:15 · 504 阅读 · 0 评论 -
ROCK : A Robust Clustering Algorithm for Categorical Attributes
以往层次聚类的劣势:(1)处理的数据对象仅限于数值型数据。不包括非数值型数据(分类属性数据)。如,布尔型(二值型),名义型。非数值数据是有限和无序的,且不能比较大小,数据间缺乏一种合理的相似度量,因此用于数值型的聚类算法不适合于处理分类属性数据。也就不能使用距离函数度量。(2)大多数算法(SLINK算法、CLINK算法、ALINK算法)在进行聚类时只估计点与点之间的相似度,也即,在每一步中那些最相似的点合并到一个簇中,这种“局部”方法很容易导致错误。ROCK的优势:(1)可以处理非数值型数据,使用了原创 2021-08-07 00:05:32 · 179 阅读 · 0 评论 -
CURE层次聚类
思路1 最开始,每个对象就是一个独立的类2 为了处理大数据,采用“随机抽样”(降低数据量,提高效率)和“分割手段”(样本分割成几部分,然后针对每部分局部聚类,形成子类,再对子类聚类形成新的类)。3 传统算法通常采用一个对象来代表类,cure采用“多个中心”代表类4 对噪声点的处理:(1)聚类过程中增长缓慢(我认为是类内个数增加速度慢)的直接剔除(2)聚类快结束的时候,把类内个数明显少的类剔除和AGNES算法的区别取消了使用所有点或用中心点+距离来表示一个类,而是从每个类中抽取固定数量、分布较原创 2021-08-06 15:42:07 · 996 阅读 · 0 评论 -
AGNES(Agglomerative Nesting)层次聚类
基本思想如果簇C1中的一个对象和簇C2中的一个对象之间的距离是所有属于不同簇的对象间欧式距离中最小的,C1和C2可能被合并。这是一种单连接方法,其每个簇可以被簇中的所有对象代表,两个簇之间的相似度由这两个簇中距离最近的数据点对的相似度来确定。算法描述:输入:包含n个对象的数据库,终止条件簇的数目k输出:k个簇(1) 将每个对象当成一个初始簇(2) Repeat(3) 根据两个簇中最近的数据点找到最近的两个簇(4)原创 2021-08-06 15:38:37 · 725 阅读 · 0 评论 -
密度聚类总结 (DBSCAN、OPTICS 、DPC 、CFSFDP、 DENCLUE、 山峰、减法)
原创 2021-08-06 15:37:00 · 1544 阅读 · 7 评论 -
DPC-Clustering by fast search and find of density peaks 2014
步骤:1 计算两个参数(每个点的密度,每个点的deltai)2 画图(决策图)3 人工筛选聚类中心,然后把剩余点归到离自己最近的中心(1)密度:两种计算方式:基于截断核的计算+基于高斯核的计算方式截断核的计算:画个半径数个数高斯核的计算:高斯模型两种方式对比:使用截断核计算得到的结果为离散值而使用高斯核计算得到的结果为连续值。因此,相对而言,使用高斯核计算得到的数据点具有相同的局部密度的概率比使用截断核计算得到的数据点具有相同的局部密度的概率要小,比较密度大小关系更方便(2)deltai(与原创 2021-08-06 15:35:25 · 181 阅读 · 0 评论 -
OPTICS
基础定义1、核心距离样本x∈X对于给定的ϵ和MinPts,使得x成为核心点的最小邻域半径称为x的核心距离,其数学表达如下2、可达距离对象y到对象x的可达距离是指x的核心距离和x与y之间欧几里得距离之间的较大值。如果x不是核心对象,x和y之间的可达距离没有意义。假设邻域半径r=2、, minPts=3,存在A(2,3),B(2,4),C(1,4),D(1,3),E(2,2),F(3,2)点A为核心对象,在A的E领域中有点{A,B,C,D,E,F},其中A的核心距离为E’=1,因为在点A的E’原创 2021-08-06 15:28:57 · 269 阅读 · 2 评论 -
DENCLUE
与DBSCAN区别:核函数求密度流程:1对数据点占据的空间推导密度函数2通过沿密度增长最大的方向(即梯度方向移动),识别密度函数的局部最大点,将每个点关联到一个密度吸引点3定义与特定的密度吸引点相关联的点构成簇4丢弃与非平凡密度吸引点相关联的簇5若两个密度吸引点之间存在密度大于或等于阈值的路径,则合并他们所代表的簇。对所有密度吸引点重复此过程,直到不再改变中止缺点1、复杂度高,o(n2)2、不适用于不同密度的簇,高斯核的邻域半径选取影响大,对有成堆噪声的数据集合适3、需要大量参数:高斯核原创 2021-08-06 15:25:02 · 259 阅读 · 0 评论 -
DBSCAN密度聚类
A density-based algorithm for discovering clusters in large spatial databases with noise基础定义邻域:对于任意样本i和给定距离e,样本i的e邻域是指所有与样本i距离不大于e的样本集合;核心对象:若样本i的e邻域中至少包含MinPts个样本,则i是一个核心对象;密度直达:若样本j在样本i的e邻域中,且i是核心对象,则称样本j由样本i密度直达;密度可达:对于样本i和样本j,如果存在样本序列p1,p2,…,pn,其中原创 2021-08-06 15:23:02 · 449 阅读 · 0 评论 -
Subtrative Clustering 减法聚类
算法流程:优缺点其他改进算法原创 2021-08-06 15:15:22 · 1803 阅读 · 1 评论 -
SSC稀疏子空间聚类
子空间聚类稀疏子空间聚类(SSC)主要过程分两步:1、利用交替方向乘子迭代(ADMM)求解稀疏系数矩阵2、谱聚类(图割)ADMMSparse Subspace Clustering: Algorithm, Theory, and Applications --2009谱聚类iris_data原创 2021-08-06 14:38:56 · 2853 阅读 · 0 评论 -
<Agglomerative Fuzzy K-means Clustering Algorithm with Selection of Number of Clusters>凝聚聚类
白话算法流程1:赋值个挺大的分类数k2:针对k利用fcm做聚类3:针对聚类结果利用评估函数求一下4:k=k-1;5:重复2~4步6:直到k=17:评估函数里取个最小值,那个时候的k就是我们认为的最理想分类时的取数评估函数,在这个论文里,是作为一个“惩罚项”的身份出现的。解决的问题:不需要提前指定具体分类数目,而是自己根据目标函数,进行求解合适的(最多的)类数。解决了软硬分割的非凸优化问题,初始中心的随机性选择不会影响后续聚类中心的求解,使聚类过程对初始聚类中心不敏感。算法可以从不同.原创 2021-08-06 11:40:18 · 595 阅读 · 0 评论