【神经网络】自编码聚类算法--DEC (Deep Embedded Clustering)

最新推荐文章于 2024-05-23 10:13:16 发布

weixin_30883271

最新推荐文章于 2024-05-23 10:13:16 发布

阅读量2.7k

点赞数

文章标签：人工智能数据结构与算法 python

原文链接：http://www.cnblogs.com/wzyj/p/9827584.html

版权

本文介绍了深度嵌入聚类算法DEC，它结合了自编码器与聚类，通过预训练的AE模型优化聚类效果。DEC算法包括两部分：预训练AE和聚类层的联合训练。实验表明，DEC在多种聚类指标上表现出色，特别是在与k-means结合时提升明显。此外，文中探讨了如何确定合适的聚类中心数目，并提供了DEC的源码分析和未来研究方向。

摘要由CSDN通过智能技术生成

1.算法描述

最近在做AutoEncoder的一些探索，看到2016年的一篇论文，虽然不是最新的，但是思路和方法值得学习。论文原文链接 http://proceedings.mlr.press/v48/xieb16.pdf，论文有感于t-SNE算法的t-分布，先假设初始化K个聚类中心，然后数据距离中心的距离满足t-分布，可以用下面的公式表示:

其中 i表示第i样本,j表示第j个聚类中心, z表示原始特征分布经过Encoder之后的表征空间。$q_{ij}$可以解释为样本i属于聚类j的概率，属于论文上说的"软分配"的概念。那么“硬分配”呢?那就是样本一旦属于一个聚类，其余的聚类都不属于了，也就是其余聚类的概率为0。由于$\alpha$在有label的训练计划中，是在验证集上进行确定的，在该论文中，全部设置成了常数1。

然后神奇的事情发生了，作者发明了一个辅助分布也用来衡量样本属于某个聚类的分布，就是下面的公式了:

其中$f_{j}=\sum_{i}q_{ij}$也许你会疑问，上面这个玩意怎么来的?作者的论文中说主要考虑一下三点:

强化预测。q分布为软分配的概率，那么p如果使用delta分布来表示，显得比较原始。
置信度越高，属于某个聚类概率越大。
规范每个质心的损失贡献，以防止大类扭曲隐藏的特征空间。分子中那个$f_{j}$就是做这个的。

假设分布有了，原始的数据分布也有了，剩下衡量两个分布近似的方法，作者使用了KL散度，公式如下：

这个也是DEC聚类的损失函数。有了具体的公式，明确一下每次迭代更新需要Update的参数：

第一个公式是优化AE中的Encoder参数，第二个公式是优化聚类中心。也就是说作者同时优化了聚类和DNN的相关参数。

作者设计的网络概念图如下:

DEC算法由两部分组成，第一部分会预训练一个AE模型；第二部分选取AE模型中的Encoder部分，加入聚类层，使用KL散度进行训练聚类。

2.实验分析

实验部分比较了几种算法，比较的指标是ACC，对比表格如下:

最低0.47元/天解锁文章

weixin_30883271

关注

0
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
【神经网络】自编码聚类算法--DEC (Deep Embedded Clustering)

1.算法描述最近在做AutoEncoder的一些探索，看到2016年的一篇论文，虽然不是最新的，但是思路和方法值得学习。论文原文链接http://proceedings.mlr.press/v48/xieb16.pdf，论文有感于t-SNE算法的t-分布，先假设初始化K个聚类中心，然后数据距离中心的距离满足t-分布，可以用下面的公式表示:其中 i表示第i样本,j表示第j个...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。