【文献阅读笔记】Towards K-means-friendly Spaces: Simultaneous Deep Learning and Clustering和他的前置文献

标题(paper):Towards K-means-friendly Spaces: Simultaneous Deep Learning and Clustering

期刊 + 时间 + 有无源代码: Proceedings of the 34th International Conference on Machine Learning + 2017 + 有代码(GitHub或者CSDN能搜到)

作者: Bo Yang, Xiao Fu, Nicholas D. Sidiropoulos, Mingyi Hong

方法名及缩写: Deep Clustering Network
(DCN) (图中展示的网络的名字)

算法框架:
在这里插入图片描述

流程图 : 非线性映射时的网络结构图:
在这里插入图片描述

对于编码和解码网络,使用 the rectified linear unit (ReLU) activation-based neurons

主要创新点: 利用深度神经网络进行降维,并把降维和k-means聚类步骤整合到一个框架中共同优化。

动机: 大多数学习方法分别(即顺序)处理降维(DR)和聚类,但最近的研究表明,联合优化这两个任务可以大大提高两者的性能。后一种类型背后的前提是数据样本是通过易于聚类的潜在表示的线性变换获得的;但在实践中,从潜在空间到数据的转换可能更复杂。(人话:将线性扩展到非线性)

目标函数:
min ⁡ W , Z , M , { s i } ∑ i = 1 N ( ℓ ( g ( f ( x i ) ) , x i ) + λ 2 ∥ f ( x i ) − M s i ∥ 2 2 ) ( 2.4 ) s . t . s j , i ∈ { 0 , 1 } ,   1 T s i = 1 ∀ i , j , \begin{aligned}\min_{\mathcal{W},\mathcal{Z},\boldsymbol{M},\{\boldsymbol{s}_i\}}\sum_{i=1}^N\left(\ell\left(\boldsymbol{g}(\boldsymbol{f}(\boldsymbol{x}_i)),\boldsymbol{x}_i\right)+\frac\lambda2\left\Vert\boldsymbol{f}(\boldsymbol{x}_i)-\boldsymbol{M}\boldsymbol{s}_i\right\Vert_2^2\right)\\(2.4)\\\mathrm{s.t.}\quad s_{j,i}\in\{0,1\},~\mathbf{1}^Ts_i=1\quad\forall i,j,\end{aligned} W,Z,M,{si}mini=1N((g(f(xi)),xi)+2λf(xi)Msi22)(2.4)s.t.sj,i{0,1}, 1Tsi=1i,j,
第一项: ℓ ( ) \ell() ():表示自编码器的重构误差(非线性映射造成的误差)。

第二项:K-means聚类的惩罚项

f ( x i ) = f ( x i , W ) f(x_i)=f(x_i,\mathcal{W}) f(xi)=f(xi,W), 其中 W \mathcal{W} W是网络参数, f ( x i , W ) f(x_i,\mathcal{W}) f(xiW) h i h_i hi潜在表示和原始数据的非线性映射:
h i = f ( x i ; W ) , f ( ⋅ ; W ) : R M → R R , h_i=f(\boldsymbol{x}_i;\mathcal{W}),\quad f(\cdot;\mathcal{W}):\mathbb{R}^M\to\mathbb{R}^R, hi=f(xi;W),f(;W):RMRR,
g ( h i ) = g ( h i , Z ) g(h_i)=g(h_i,\mathcal{Z}) g(hi)=g(hi,Z), 其中 Z \mathcal{Z} Z是自编码器的参数(网络参数), g ( h i , Z ) g(h_i,\mathcal{Z}) g(hi,Z)是将潜在表示 h i h_i hi在自编码器中进行重构,防止平凡解(trivial low-dimensional representations)

ℓ ( x , y ) = ∥ x − y ∥ 2 2 \ell(x,y)=\|x-y\|^2_2 (x,y)=xy22 这个表示最小二乘损失,也可以用KL散度和 l 1 l_1 l1-norm 拟合代替

优化步骤: (alternating optimiza-
tion based algorithm)

1、网络预训练:利用分层预训练的方式,训练网络参数 ( W , Z ) (\mathcal{W},\mathcal{Z}) (W,Z), 获得初始的 M M M s i {s_i} si.

2、交替随机优化

Update ( W , Z ) (\mathcal{W},\mathcal{Z}) (W,Z)​ :
X ← X − α ∇ X L i , \mathcal{X}\leftarrow\mathcal{X}-\alpha\nabla_{\mathcal{X}}L^{i}, XXαXLi,
X = ( W , Z ) \mathcal{X}=(\mathcal{W},\mathcal{Z}) X=(W,Z), α \alpha α是先定义的学习率。

Update s i {s_i} si:
s j , i ← { 1 , if  j = arg ⁡ min ⁡ k = { 1 , … , K } ∥ f ( x i ) − m k ∥ 2 , 0 , otherwise . s_{j,i}\leftarrow\begin{cases}1,&\text{if }j=\arg\min_{k=\{1,\ldots,K\}}\left\|f(x_i)-\boldsymbol{m}_k\right\|_2,\\0,&\text{otherwise}.\end{cases} sj,i{1,0,if j=argmink={1,,K}f(xi)mk2,otherwise.
Update M M M:
m k ← m k − ( 1 / c k i ) ( m k − f ( x i ) ) s k , i , \boldsymbol{m}_k\leftarrow\boldsymbol{m}_k-\left(1/c_k^i\right)\left(\boldsymbol{m}_k-\boldsymbol{f}(\boldsymbol{x}_i)\right)s_{k,i}, mkmk(1/cki)(mkf(xi))sk,i,
1 / c k i 1/c^i_k 1/cki是梯度步长,控制学习率的参数。

注解:(优缺点 + 随便想记的内容 )

1、和Learning From Hidden Traits: Joint Factor Analysis and Latent Clustering有很大的关系,可以简单看作是这篇论文的改进。

2、和Learning From Hidden Traits: Joint Factor Analysis and Latent Clustering的区别:上一篇只考虑了线性分解+k-means,这一篇利用深度神经网络+k-means,可以处理非线性。

3、k-means:
min ⁡ M ∈ R M × K , { s i ∈ R K } ∑ i = 1 N ∥ x i − M s i ∥ 2 2 ( s . t . s j , i ∈ { 0 , 1 } , 1 T s i = 1 ∀ i , j , \begin{aligned}\min_{M\in\mathbb{R}^{\boldsymbol{M}\times K},\{\boldsymbol{s}_i\in\mathbb{R}^K\}}&\sum_{i=1}^N\left\|\boldsymbol{x}_i-\boldsymbol{M}\boldsymbol{s}_i\right\|_2^2&(\\\mathrm{s.t.}&s_{j,i}\in\{0,1\},\boldsymbol{1}^T\boldsymbol{s}_i=1&\forall i,j,\end{aligned} MRM×K,{siRK}mins.t.i=1NxiMsi22sj,i{0,1},1Tsi=1(i,j,
4、维度下降+k-means:(就是Learning From Hidden Traits: Joint Factor Analysis and Latent Clustering目标函数)
min ⁡ M , { s i } , W , H ∥ X − W H ∥ F 2 + λ ∑ i = 1 N ∥ h i − M s i ∥ 2 2 + r 1 ( H ) + r 2 ( W ) s . t . s j , i ∈ { 0 , 1 } , 1 T s i = 1 ∀ i , j , \begin{aligned}\min_{{M},\{{s}_{i}\},{W},{H}}\|{X}-{W}{H}\|_{F}^2+\lambda\sum_{i=1}^{N}\|{h}_{i}-{M}{s}_{i}\|_2^2 & \\ +r_1({H})+r_2({W}) & \\ \mathrm{s.t.}\quad s_{j,i}\in\{0,1\},{1}^{T}{s}_{i}=1\quad\forall i,j, & \end{aligned} M,{si},W,HminXWHF2+λi=1NhiMsi22+r1(H)+r2(W)s.t.sj,i{0,1},1Tsi=1i,j,


标题(paper):Learning From Hidden Traits: Joint Factor Analysis and Latent Clustering

期刊 + 时间 + 有无源代码: IEEE TRANSACTIONS ON SIGNAL PROCESSING, + 2017 + 没收集

作者: Bo Yang, Xiao Fu, Nicholas D. Sidiropoulos,

方法名及缩写:

算法框架:

流程图 :

主要创新点: 利用先验信息(潜在聚类结构)指导特征分解。可以简单理解为:潜在聚类结构 和 特征分解的融合。

动机: 考虑到许多数据集在某些降维域中表现出更好的聚类结构

目标函数: (NMF + K-means)
min ⁡ A , B , C ∥ X ( 1 ) − ( C ⊙ B ) ( D A ) T ∥ F 2 + λ ∥ A − S M ∥ F 2 + η ∥ B ∥ F 2 + η ∥ C ∥ F 2 s.t. A, B, C ≥ 0 , ∥ A ( ℓ , : ) ∥ 2 = 1 , ∀ ℓ , D = D i a g ( d 1 , … , d I ) , ∥ S ( i , : ) ∥ 0 = 1 , S ( i , k ) ∈ { 0 , 1 } , ∀ i , k , \begin{gathered} \begin{aligned}\min_{\begin{array}{c}\mathbf{A},\mathbf{B},\mathbf{C}\\\end{array}}\left\|\mathbf{X}_{\left(1\right)}-\left(\mathbf{C}\odot\mathbf{B}\right)\left(\mathbf{D}\mathbf{A}\right)^{T}\right\|_{F}^{2}+\lambda\left\|\mathbf{A}-\mathbf{S}\mathbf{M}\right\|_{F}^{2}\end{aligned} \\ +\eta\|\mathbf{B}\|_F^2+\eta\|\mathbf{C}\|_F^2 \\ \text{s.t. A, B, C}\geq\mathbf{0},\|\mathbf{A}(\ell,:)\|_{2}=1,\forall\ell, \\ \mathbf{D}=\mathrm{Diag}(d_{1},\ldots,d_{I}), \\ \begin{aligned}\|\mathbf{S}(i,:)\|_0=1,\mathbf{S}(i,k)\in\{0,1\},\forall i,k,\end{aligned} \end{gathered} A,B,Cmin X(1)(CB)(DA)T F2+λASMF2+ηBF2+ηCF2s.t. A, B, C0,A(,:)2=1,,D=Diag(d1,,dI),S(i,:)0=1,S(i,k){0,1},i,k,
特殊情况:采用volmin作为分解准则:
min ⁡ W,H W,H ∥ X − W H ∥ F 2 + β ⋅ vol ⁡ ( W ) + λ ∥ H − M S ∥ F 2 s.t. H ≥ 0 , 1 T H = 1 T , ∥ S ( : , j ) ∥ 0 = 1 , S ( k , j ) ∈ { 0 , 1 } . \begin{aligned}\min_{\underset{\text{W,H}}{\text{W,H}}} & \|\mathbf{X}-\mathbf{WH}\|_{F}^2+\beta\cdot\operatorname{vol}(\mathbf{W})+\lambda\|\mathbf{H}-\mathbf{MS}\|_{F}^2\\ & \text{s.t. H}\geq\mathbf{0},\mathbf{1}^{T}\mathbf{H}=\mathbf{1}^{T},\\ & \|\mathbf{S}(:,j)\|_0=1,\mathbf{S}(k,j)\in\{0,1\}.\\ & \\ & \end{aligned} W,HW,HminXWHF2+βvol(W)+λHMSF2s.t. H0,1TH=1T,S(:,j)0=1,S(k,j){0,1}.
其中第二项是K-means惩罚,它强制H列上的聚类先验,并且调优参数λ≥0平衡数据保真度和聚类先验。

优化步骤: 自己重新查原文,不想看了

注解:(优缺点 + 随便想记的内容 )

1、Latent clustering: 将原始数据X映射到某一个潜在表示空间中进行计算样本点之间的距离从而聚类。

2、他在论文里面还提到了很多分解方式+K-means的结合,但是我不想看了,公式看着头疼


  • 18
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值