Entropy regularization for unsupervised clustering with adaptive

基于自适应无监督聚类的熵正则化

abstract

  1. 自适应邻域无监督聚类的熵正则化
  2. 输入亲和矩阵仅基于距离测量,在概率预测下缺乏明确的物理意义
  3. 仍需要操作其他离散化程序。

为了解决这些问题,我们提出新的聚类模型,称为:基于自适应无监督聚类的熵正则化(ERCAN) 动态和同时更新亲和矩阵和聚类结果。

首先,在概率模型中引入最大熵正则化项,以避免平凡的相似性分布。

此外,我们新引入了基于L0范式的拉普拉斯秩约束来构造自适应邻域,以获得稀疏性和强度分割能力,而无需额外的离散化过程

最后,我们提出了一种新的单调函数优化方法,该方法揭示了图稀疏性与相邻分配之间的一致性,以解决迭代优化过程中的l0范式约束。

introduction

模型中的两个策略:

  • 对于一组随机变量,根据经验获得最大熵,以准确保守地估计变量的当前状态。受此特征的启发,我们采用熵最大化策略,在概率模型下为成对相似性提供稳定的预测意义。随后,该术语有助于我们为每个样本建立适当的、可解释的相似性分配,并避免两种极端相似性分布,这两种极端类似性分布对应于从邻域初步聚类模型(稀疏过拟合)和最大熵纯追求(平均稠密)中获得的两个平凡解.
  • 基于l0范式的拉普拉斯秩约束

related work

基于图学习中相似矩阵的构造

似性矩阵的构建仅仅基于距离测量,这对组合变量本身缺乏明确的物理意义。此外,这些矩阵在随后的图分析中通常是固定的,这对原始数据中存在的噪声很敏感。

聚类方法中的熵测量

对于随机向量变量 a ∈ R p × 1 a \in R^{p \times 1} aRp×1 φ ( a ) = ∑ i = 1 p ( − a i l n a i ) \varphi(a) = \sum_{i=1} ^p(-a_{i}lna_{i}) φ(a)=i=1p(ailnai)表示表征变量预测稳定性和信息参与程度的熵度量。更大的熵值意味着更稳定的可变估计状态,反之亦然。具体而言,平均值是现实世界中完全未知情况下的最优配置,这意味着最大熵能够在理想的统计意义上拟合优化模型的当前状态。

在过去的几年中,熵度量被广泛应用于各种聚类方法中,以提高相应的性能。

一些方法通过增加熵测量来加强和改进K均值以及模糊c均值(FCM)

主要模型构造

基于邻居的初步聚类模型

在这里插入图片描述

S ∈ R n × n , s i j S \in R^{n \times n},s_{ij} SRn×n,sij是相似性权重 此外,sii=0 意味着对于所有项,它不会与自身构成相邻边。

在流形学习假设下的自然聚类模型中,希望距离更远的两个样本具有更低的相似性权重,反之亦然。

然而,概率约束下的问题(3)导致了一个平凡的解决方案,这有助于只有最近的样本属于相似度为1的xi的邻居,而所有其他点都不与x i连接

熵最大化问题(3)的强化

φ ( s i ) = ∑ j = 1 n ( − s i l n s i j ) \varphi(s_i) = \sum_{j=1} ^n(-s_{i}lns_{ij}) φ(si)=j=1n(silnsij)

因为 s i j ≥ 0 , φ ( s i ) s_{ij} \geq 0,\varphi(s_i) sij0,φ(si)在一个元素为0,剩下元素均为1时 取得最小值

它代表了概率模型下si的最有信息的分布状态。然而,这种稀疏过拟合分布与问题(3)的平凡解类似,这也是评估概率关系的最不稳定状态。**为了避免现有的平凡解并减少最不稳定变量状态可能导致的性能损失,我们在问题(3)中采用熵最大化正则化,**以在优化过程的每个步骤中可靠且稳定地拟合当前的相似变量状态。因此,具有熵最大化项的新问题可以表示为

在这里插入图片描述

其中γ>0是熵正则化器的正则化参数。

一种特殊情况:

在这里插入图片描述

其中 λ \lambda λ足够大 很容易发现 问题(5)的最优解对应于 [ s i 1 , s i 2 , … , s i n ] [s_{i1},s_{i2},\dots,s_{in}] [si1,si2sin]的最大熵,其中s i中的所有元素将等于1/n

这又是一个平凡解

本文将上述两个平凡解统一为相似分配的平凡分布。相应地,问题(3)和熵调节器(具有适当的γ)之间的组合对于避免琐碎的相似性分布和用已知信息拟合优化模型的当前状态具有重要意义。

基于l0秩约束问题(3)的强化

F = [ f 1 , f 2 , … , f n ] ∈ R n × c F=[f_{1},f_{2},\dots,f_{n}] \in R^{n \times c} F=[f1,f2,,fn]Rn×c是聚类指标矩阵

在这里插入图片描述

L s = D s − S T + S 2 L_s = D_{s}- \frac{S^T+S}{2} Ls=Ds2ST+S 度矩阵 D S ∈ R n × n D_S \in R^{n \times n} DSRn×n

拉普拉斯矩阵 L~ S 的特征值 0 的 重数等于与 S 对应的图中连通分量的数目

在这里插入图片描述

有了秩约束后不需要再使用离散化方法,例如kmeans

通过求解问题(7)获得的最优S不够稀疏,无法发现新的连通分量并用精确的c个连通分量构建连通图

因此,在拉普拉斯秩约束的基础上,我们添加了一个新的l0范数约束 ∣ ∣ s i ∣ ∣ 0 = k ||s_i||_0=k ∣∣si0=k,以获得更稀疏的相似矩阵,并帮助秩约束更精确地揭示连通图的连通分量,其中k是正整数,以限制si中非零值的个数,由熵正则化和具有0范数的拉普拉斯秩约束强化的主模型可以获得为:

在这里插入图片描述

其中秩(L S)=n− c属于非线性约束,依赖于S,并且似乎难以优化(此处的细节见聂飞平的CAN)

在这里插入图片描述

在这里插入图片描述

通过拉格朗日乘子法和迭代优化方法的结合,这个综合优化问题很容易解决,我们还提出了单阶函数优化方法,以应对新引入的l0-范数约束

优化算法

初始化S

通过解决问题4来初始化S

在这里插入图片描述

问题对每个i是独立的,可以重写为:

在这里插入图片描述

拉格朗日函数:

在这里插入图片描述

求导:

在这里插入图片描述

将等式18带入17:

在这里插入图片描述

注意约束sii=0,我们得到了初始化解 s i j ~ \tilde{s_{ij}} sij~通过将等式(20)代入等式(18):

在这里插入图片描述

根据经验确定 γ = ∑ i , j = 1 n ( d i j x ) 2 / n \gamma = \sqrt{\sum_{i,j=1}^n (d_{ij}^x)^2}/n γ=i,j=1n(dijx)2 /n F范数除以n

基于γ的这种初始化方法,我们引入了一个额外的比值系数η来调整初始γ,并对γ的参数敏感性进行了分析。

因此,初始 γ = ( η / n ) ∑ i , j = 1 n ( d i j x ) 2 \gamma = (\eta / n)\sqrt{\sum_{i,j=1}^n (d_{ij}^x)^2} γ=(η/n)i,j=1n(dijx)2 可以由数据集本身和系数η共同确定。γ的相关参数敏感性将在第5节中阐述。

固定s更新F

在这里插入图片描述

问题(22)的最优解是获得由对应于 L s L_s Ls的c个最小特征值对应的c个特征向量形成的正交聚类指标矩阵F

固定F更新S

F固定时 等价于以下问题:

在这里插入图片描述

其中λ表示秩约束的约束度。例如,具有较大值的λ会导致更强的秩约束来构造具有c个精确连通分量的S。注意等式(6)中的等价转换,问题(23)中的第三项随后可以与第一项积分。然后问题(23)变成:

在这里插入图片描述

在这里插入图片描述

d i j x + λ d i j f = d i j d_{ij}^x+\lambda d_{ij}^f = d_{ij} dijx+λdijf=dij

在这里插入图片描述

问题26对每个i独立:

在这里插入图片描述

如果暂时忽略问题(27)中的l0范数约束,我们注意到,除了元素dij和dxj之间的差异之外,相应的问题几乎与问题(14)相同。因此,我们还采用了拉格朗日乘数法来处理问题(14),如第4.1节所述,并获得了类似的解:

在这里插入图片描述

其中γ的值等于等式(21)中γ的值。可以很容易地发现,由 s i ‾ = [ s ‾ i 1 , s ‾ i 2 , … , s ‾ i m ] ∈ R 1 × n \overline{s_i}=[\overline{s}_{i1},\overline{s}_{i2},\dots,\overline{s}_{im}] \in R^{1 \times n} si=[si1,si2,,sim]R1×n构造的解S实际上是问题(7)的最优解。然而,这样构建的相似矩阵不稀疏,无法生成拉普拉斯秩约束所需的c个连通分量。加入0范式约束,基于等式28中得到的 s ‾ j \overline{s}_j sj继续解决问题27, 0范式约束限制了si中非零元素的个数 其中权衡参数k是正整数 根据获得的 s i ‾ \overline{s_i} si,应从n个元素中提取k并进行标准化,以优化问题(27),而其他n− k个元素将被放弃。

为了解决l0范式约束 引入一种新的单调函数优化方法 假设变量 d i j d_{ij} dij上的函数 Q \mathcal{Q} Q:

Q ( d i j ) = d i j S ‾ i j + γ S ‾ i j l n S ‾ i j \mathcal{Q}(d_{ij}) = d_{ij} \overline{S}_{ij}+\gamma \overline{S}_{ij}ln \overline{S}_{ij} Q(dij)=dijSij+γSijlnSij

引理2:i不等于j时,函数 Q ( d i j ) \mathcal{Q}(d_{ij}) Q(dij)关于变量dij 单调递减

在这里插入图片描述

其中简化的Q(d i j)可以被视为dij上的指数函数。我们进一步假设:

在这里插入图片描述

其中M可以被视为指数函数Q(d i j)的系数。

问题28中的分母 l n ( ∑ m = 1 n e − 1 γ d i m ) ln(\sum_{m=1}^n e^{-\frac{1}{\gamma}d_{im}}) ln(m=1neγ1dim)对于某些 s i ‾ \overline{si} si中的随机 s i j ‾ \overline{s_{ij}} sij是常数 ,从而M也是常数

函数Q(d i j)最终简化为:

在这里插入图片描述
在这里插入图片描述

这意味着指数函数Q(dij)的系数M也是一个正常数,并确切地证明了当i!=j时,对于某些 s i ‾ \overline{si} si中的随机 s i j ‾ \overline{s_{ij}} sij,函数Q(d i j)随着dj的减小而单调减小。

关于具体的 s ‾ i \overline{s}_i si 假设 d i 1 , d i 2 , … , d i k , … , d i n d_{i1},d_{i2},\dots,d_{ik},\dots,d_{in} di1,di2,,dik,,din 以升序排序 考虑 d i 1 = 0 d_{i1}=0 di1=0

在这里插入图片描述

其中,具有归一化的 s i j ∗ s_{ij}^* sij仍然满足概率模型 s i T 1 = 1 s_i^T \textbf{1}=1 siT1=1

主要模型的理论分析

迭代优化过程的停止条件

秩(L S)=n− c被视为F和S的运算过程中的停止条件

在F和S每次更新一次之后,矩阵L S的秩将与n-c进行比较和参数λ将在实践中进行相应调整

秩(Ls)<n− c、 这意味着连通图S的连通分量小于c,其中λ应乘以2以加强问题(11)中的拉普拉斯秩约束、

若>n-c,这意味着连通图S的连通分量大于c,其中λ应除以2以削弱拉普拉斯秩约束。

需要强调的是,将λ初始化为等于γ,以更有效地完成迭代过程。当秩(L s)=n− c、 最终得到具有精确c个连通分量的图S,以停止迭代优化过程

聚类预测标签z∈ R n×1可以直接从最终S中获得。

总体而言,算法1总结了用于解决具有熵正则化和0范数拉普拉斯秩约束的主要问题(1 1)的总体聚类算法。

通图S的连通分量小于c,其中λ应乘以2以加强问题(11)中的拉普拉斯秩约束、

若>n-c,这意味着连通图S的连通分量大于c,其中λ应除以2以削弱拉普拉斯秩约束。

需要强调的是,将λ初始化为等于γ,以更有效地完成迭代过程。当秩(L s)=n− c、 最终得到具有精确c个连通分量的图S,以停止迭代优化过程

聚类预测标签z∈ R n×1可以直接从最终S中获得。

总体而言,算法1总结了用于解决具有熵正则化和0范数拉普拉斯秩约束的主要问题(1 1)的总体聚类算法。
在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值