DPSOM笔记

由于本人项目任务不涉及时序序列分析,故时序序列分析部分的原理和实验并没看,并且由于本人基础薄弱,不能保证对文章的理解清晰到位,仅供参考

摘要

  • 相关任务目标:对复杂数据进行可解释的可视化
  • 两大主要技术路线:聚类 & 表示学习
  • 现状:两种技术路线并没有成功地结合使用过
    • 比如说依赖于中间表示的拓扑结构的表示学习方法(如SOM),其表征(也即数据所匹配到的神经元在低维空间中的位置表示)的聚类效果相较深度聚类方法来得要差(因为SOM并没有对原始数据做变换,只是将神经元嵌入到数据所在空间中,因此最终表征的聚类效果与原始数据在空间中的分布相关。而深度聚类方法则是利用网络将表示空间做了变换,并基于某些聚类目标来调优该变换过程)
  • 本文主要工作:改善了通过SOM得到的表征聚类效果不佳的现状
    - 提出了一种通过概率聚类分配(PSOM)拟合SOM的新方法
    - 利用VAE提出了深度概率聚类的框架
    - 其他
  • 结果:从SOM网络导出的聚类结果相比其他工作更好,且保留了SOM较好的可视化效果,其他略

介绍

  • 传统聚类方法自然直观,但是面对高维的、复杂的、在表示空间上聚类属性弱的数据表现不佳。早先会采用如PCA的降维方法将数据投到更方便聚类的空间中。最近也有采用网络(AEs,VAEs,GANs)来完成空间映射的工作。上述模型方法产生的低维表示已经被证明能简化聚类过程。聚类方法非常成功但是并没有研究类间的关系,且用于聚类的特征点仍位于难以可视化或者解释的高维空间中
  • 相反的,自组织图(SOM)所提供的表征是高度可解释的,它在原始数据簇上引入灵活的邻域结构,从而刻画出数据簇之间的拓扑关系。但其性能很大程度上取决于原始数据的复杂性。在高维复杂数据上表现不佳,生成的低维表征聚类性质差
  • 为解决SOM中存在的问题,我们提出了PSOM(一种训练SOM的方法)、DPSOM(一种将VAE和PSOM结合的方法),在这里我们将映射后的数据点处理成概率分布,并最小化这个分布与SOM节点分布的KL散度,从而即调整了SOM也使得数据的映射更加便于用SOM拟合

相关工作

自组织图

  • 自组织图可以被理解为在将要形成的簇中心上嵌入一个已定义好的拓扑结构,建立簇中心与拓扑结构上的点的对应关系,并利用拓扑结构上原有的邻居关系去自动地发掘出数据簇之间的邻居关系,现有的深度自组织图方法可能是在数据和SOM节点做距离计算前加了几层,利用SOM损失顺便学习到数据映射的过程

深度聚类

  • 深度方法用在聚类中可以显著提升效果,如使用AE进行表征的学习,并结合簇分析损失如CAH、k-means聚类损失来增强表征学习效果,但较少关注聚类中心点之间的拓扑关系约束

相似工作

  • 较为相似的工作有两篇,主要存在的不足是没有利用深度聚类方法中的簇分析损失,且SOM的损失项采用的是硬性分配到簇的方法,连续性不好

深度概率聚类模型DPSOM

背景

  • SOM定义一个包含了K个节点的拓扑结构,每个节点对应于特征空间中的一个中心,在训练时,每次选择一个随机样本,令与之最近的SOM节点及其邻域节点更加靠近该样本
  • 集群分配强化技术(CAH),在深度聚类的实践中有效地增强了中间表示的性质,具体内容有如下
    • 利用学生T分布以及同一个样本 i i i和其他所有中心 j j j之间的距离生成距离度量 s i j s_{ij} sij s i j s_{ij} sij表示样本 i i i属于簇 j j j的相似度,利用任一时刻下 f ( x i ) f(x_i) f(xi)(原始数据映射后的表示)与 μ j \mu_j μj(特征空间中的SOM节点)都可以求出所有的 s i j s_{ij} sij,并将所有的 s i j s_{ij} sij记为 S S S
    • 构造了另一个分布 T T T,该分布是基于 S S S分布变换得到的,主要变化是会使得概率高的位置的概率更高,并利用KL散度使得分布 S S S与分布 T T T靠近
    • 该构造的物理意义是迫使表征空间中的数据点与中心的关系更“纯”(样本与其所属的类中心更近,与其他类中心更远)

概率SOM聚类

  • PSOM包含了两项,CAH损失项(前面介绍过),以及Soft SOM损失,Soft SOM的损失可以被直观的解释为 s i j s_{ij} sij以及 s i n z ( j ) s_{in_{z}(j)} sinz(j)之间的交叉熵的和(对不同 z z z做和),其中 n z ( j ) n_z(j) nz(j)表示距离样本 i i i z z z近的聚类中心的下标,更直观的说就是,当表征空间中的数据与某中心靠近时,该数据也要与邻域内的中心靠近
  • PSOM等于CAH损失和S-SOM损失按权重相加,乘在S-SOM上的权重 β β β决定了最终的表征偏向聚类性能还是簇间结构关系

结合VAE的PSOM

  • VAE部分请看其他论文,主要特点是在生成中间表示是生成两部分,一部分是特征的均值,一部分是特征的标准差,然后利用采样获得实际的中间表征。该中间表征就是用于PSOM部分的表征。而VAE损失包含两部分,一部分编码重构损失,一部分结构损失,结构损失指的是中间表示的分布应尽量靠近一个高斯分布,将VAE损失与前面提到的CAH损失和S-SOM损失联立起来即得到DPSOM的最终损失项

实验

结论

  • 聚类性能指标好于SOTA,且有较好的可视化效果
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值