标题(paper):Towards K-means-friendly Spaces: Simultaneous Deep Learning and Clustering
期刊 + 时间 + 有无源代码: Proceedings of the 34th International Conference on Machine Learning + 2017 + 有代码(GitHub或者CSDN能搜到)
作者: Bo Yang, Xiao Fu, Nicholas D. Sidiropoulos, Mingyi Hong
方法名及缩写: Deep Clustering Network
(DCN) (图中展示的网络的名字)
算法框架:
流程图 : 非线性映射时的网络结构图:
对于编码和解码网络,使用 the rectified linear unit (ReLU) activation-based neurons
主要创新点: 利用深度神经网络进行降维,并把降维和k-means聚类步骤整合到一个框架中共同优化。
动机: 大多数学习方法分别(即顺序)处理降维(DR)和聚类,但最近的研究表明,联合优化这两个任务可以大大提高两者的性能。后一种类型背后的前提是数据样本是通过易于聚类的潜在表示的线性变换获得的;但在实践中,从潜在空间到数据的转换可能更复杂。(人话:将线性扩展到非线性)
目标函数:
min
W
,
Z
,
M
,
{
s
i
}
∑
i
=
1
N
(
ℓ
(
g
(
f
(
x
i
)
)
,
x
i
)
+
λ
2
∥
f
(
x
i
)
−
M
s
i
∥
2
2
)
(
2.4
)
s
.
t
.
s
j
,
i
∈
{
0
,
1
}
,
1
T
s
i
=
1
∀
i
,
j
,
\begin{aligned}\min_{\mathcal{W},\mathcal{Z},\boldsymbol{M},\{\boldsymbol{s}_i\}}\sum_{i=1}^N\left(\ell\left(\boldsymbol{g}(\boldsymbol{f}(\boldsymbol{x}_i)),\boldsymbol{x}_i\right)+\frac\lambda2\left\Vert\boldsymbol{f}(\boldsymbol{x}_i)-\boldsymbol{M}\boldsymbol{s}_i\right\Vert_2^2\right)\\(2.4)\\\mathrm{s.t.}\quad s_{j,i}\in\{0,1\},~\mathbf{1}^Ts_i=1\quad\forall i,j,\end{aligned}
W,Z,M,{si}mini=1∑N(ℓ(g(f(xi)),xi)+2λ∥f(xi)−Msi∥22)(2.4)s.t.sj,i∈{0,1}, 1Tsi=1∀i,j,
第一项:
ℓ
(
)
\ell()
ℓ():表示自编码器的重构误差(非线性映射造成的误差)。
第二项:K-means聚类的惩罚项
f
(
x
i
)
=
f
(
x
i
,
W
)
f(x_i)=f(x_i,\mathcal{W})
f(xi)=f(xi,W), 其中
W
\mathcal{W}
W是网络参数,
f
(
x
i
,
W
)
f(x_i,\mathcal{W})
f(xi,W)是
h
i
h_i
hi潜在表示和原始数据的非线性映射:
h
i
=
f
(
x
i
;
W
)
,
f
(
⋅
;
W
)
:
R
M
→
R
R
,
h_i=f(\boldsymbol{x}_i;\mathcal{W}),\quad f(\cdot;\mathcal{W}):\mathbb{R}^M\to\mathbb{R}^R,
hi=f(xi;W),f(⋅;W):RM→RR,
g
(
h
i
)
=
g
(
h
i
,
Z
)
g(h_i)=g(h_i,\mathcal{Z})
g(hi)=g(hi,Z), 其中
Z
\mathcal{Z}
Z是自编码器的参数(网络参数),
g
(
h
i
,
Z
)
g(h_i,\mathcal{Z})
g(hi,Z)是将潜在表示
h
i
h_i
hi在自编码器中进行重构,防止平凡解(trivial low-dimensional representations)
ℓ ( x , y ) = ∥ x − y ∥ 2 2 \ell(x,y)=\|x-y\|^2_2 ℓ(x,y)=∥x−y∥22 这个表示最小二乘损失,也可以用KL散度和 l 1 l_1 l1-norm 拟合代替
优化步骤: (alternating optimiza-
tion based algorithm)
1、网络预训练:利用分层预训练的方式,训练网络参数 ( W , Z ) (\mathcal{W},\mathcal{Z}) (W,Z), 获得初始的 M M M和 s i {s_i} si.
2、交替随机优化
Update
(
W
,
Z
)
(\mathcal{W},\mathcal{Z})
(W,Z) :
X
←
X
−
α
∇
X
L
i
,
\mathcal{X}\leftarrow\mathcal{X}-\alpha\nabla_{\mathcal{X}}L^{i},
X←X−α∇XLi,
X
=
(
W
,
Z
)
\mathcal{X}=(\mathcal{W},\mathcal{Z})
X=(W,Z),
α
\alpha
α是先定义的学习率。
Update
s
i
{s_i}
si:
s
j
,
i
←
{
1
,
if
j
=
arg
min
k
=
{
1
,
…
,
K
}
∥
f
(
x
i
)
−
m
k
∥
2
,
0
,
otherwise
.
s_{j,i}\leftarrow\begin{cases}1,&\text{if }j=\arg\min_{k=\{1,\ldots,K\}}\left\|f(x_i)-\boldsymbol{m}_k\right\|_2,\\0,&\text{otherwise}.\end{cases}
sj,i←{1,0,if j=argmink={1,…,K}∥f(xi)−mk∥2,otherwise.
Update
M
M
M:
m
k
←
m
k
−
(
1
/
c
k
i
)
(
m
k
−
f
(
x
i
)
)
s
k
,
i
,
\boldsymbol{m}_k\leftarrow\boldsymbol{m}_k-\left(1/c_k^i\right)\left(\boldsymbol{m}_k-\boldsymbol{f}(\boldsymbol{x}_i)\right)s_{k,i},
mk←mk−(1/cki)(mk−f(xi))sk,i,
1
/
c
k
i
1/c^i_k
1/cki是梯度步长,控制学习率的参数。
注解:(优缺点 + 随便想记的内容 )
1、和Learning From Hidden Traits: Joint Factor Analysis and Latent Clustering有很大的关系,可以简单看作是这篇论文的改进。
2、和Learning From Hidden Traits: Joint Factor Analysis and Latent Clustering的区别:上一篇只考虑了线性分解+k-means,这一篇利用深度神经网络+k-means,可以处理非线性。
3、k-means:
min
M
∈
R
M
×
K
,
{
s
i
∈
R
K
}
∑
i
=
1
N
∥
x
i
−
M
s
i
∥
2
2
(
s
.
t
.
s
j
,
i
∈
{
0
,
1
}
,
1
T
s
i
=
1
∀
i
,
j
,
\begin{aligned}\min_{M\in\mathbb{R}^{\boldsymbol{M}\times K},\{\boldsymbol{s}_i\in\mathbb{R}^K\}}&\sum_{i=1}^N\left\|\boldsymbol{x}_i-\boldsymbol{M}\boldsymbol{s}_i\right\|_2^2&(\\\mathrm{s.t.}&s_{j,i}\in\{0,1\},\boldsymbol{1}^T\boldsymbol{s}_i=1&\forall i,j,\end{aligned}
M∈RM×K,{si∈RK}mins.t.i=1∑N∥xi−Msi∥22sj,i∈{0,1},1Tsi=1(∀i,j,
4、维度下降+k-means:(就是Learning From Hidden Traits: Joint Factor Analysis and Latent Clustering目标函数)
min
M
,
{
s
i
}
,
W
,
H
∥
X
−
W
H
∥
F
2
+
λ
∑
i
=
1
N
∥
h
i
−
M
s
i
∥
2
2
+
r
1
(
H
)
+
r
2
(
W
)
s
.
t
.
s
j
,
i
∈
{
0
,
1
}
,
1
T
s
i
=
1
∀
i
,
j
,
\begin{aligned}\min_{{M},\{{s}_{i}\},{W},{H}}\|{X}-{W}{H}\|_{F}^2+\lambda\sum_{i=1}^{N}\|{h}_{i}-{M}{s}_{i}\|_2^2 & \\ +r_1({H})+r_2({W}) & \\ \mathrm{s.t.}\quad s_{j,i}\in\{0,1\},{1}^{T}{s}_{i}=1\quad\forall i,j, & \end{aligned}
M,{si},W,Hmin∥X−WH∥F2+λi=1∑N∥hi−Msi∥22+r1(H)+r2(W)s.t.sj,i∈{0,1},1Tsi=1∀i,j,
标题(paper):Learning From Hidden Traits: Joint Factor Analysis and Latent Clustering
期刊 + 时间 + 有无源代码: IEEE TRANSACTIONS ON SIGNAL PROCESSING, + 2017 + 没收集
作者: Bo Yang, Xiao Fu, Nicholas D. Sidiropoulos,
方法名及缩写:
算法框架:
流程图 :
主要创新点: 利用先验信息(潜在聚类结构)指导特征分解。可以简单理解为:潜在聚类结构 和 特征分解的融合。
动机: 考虑到许多数据集在某些降维域中表现出更好的聚类结构
目标函数: (NMF + K-means)
min
A
,
B
,
C
∥
X
(
1
)
−
(
C
⊙
B
)
(
D
A
)
T
∥
F
2
+
λ
∥
A
−
S
M
∥
F
2
+
η
∥
B
∥
F
2
+
η
∥
C
∥
F
2
s.t. A, B, C
≥
0
,
∥
A
(
ℓ
,
:
)
∥
2
=
1
,
∀
ℓ
,
D
=
D
i
a
g
(
d
1
,
…
,
d
I
)
,
∥
S
(
i
,
:
)
∥
0
=
1
,
S
(
i
,
k
)
∈
{
0
,
1
}
,
∀
i
,
k
,
\begin{gathered} \begin{aligned}\min_{\begin{array}{c}\mathbf{A},\mathbf{B},\mathbf{C}\\\end{array}}\left\|\mathbf{X}_{\left(1\right)}-\left(\mathbf{C}\odot\mathbf{B}\right)\left(\mathbf{D}\mathbf{A}\right)^{T}\right\|_{F}^{2}+\lambda\left\|\mathbf{A}-\mathbf{S}\mathbf{M}\right\|_{F}^{2}\end{aligned} \\ +\eta\|\mathbf{B}\|_F^2+\eta\|\mathbf{C}\|_F^2 \\ \text{s.t. A, B, C}\geq\mathbf{0},\|\mathbf{A}(\ell,:)\|_{2}=1,\forall\ell, \\ \mathbf{D}=\mathrm{Diag}(d_{1},\ldots,d_{I}), \\ \begin{aligned}\|\mathbf{S}(i,:)\|_0=1,\mathbf{S}(i,k)\in\{0,1\},\forall i,k,\end{aligned} \end{gathered}
A,B,Cmin
X(1)−(C⊙B)(DA)T
F2+λ∥A−SM∥F2+η∥B∥F2+η∥C∥F2s.t. A, B, C≥0,∥A(ℓ,:)∥2=1,∀ℓ,D=Diag(d1,…,dI),∥S(i,:)∥0=1,S(i,k)∈{0,1},∀i,k,
特殊情况:采用volmin作为分解准则:
min
W,H
W,H
∥
X
−
W
H
∥
F
2
+
β
⋅
vol
(
W
)
+
λ
∥
H
−
M
S
∥
F
2
s.t. H
≥
0
,
1
T
H
=
1
T
,
∥
S
(
:
,
j
)
∥
0
=
1
,
S
(
k
,
j
)
∈
{
0
,
1
}
.
\begin{aligned}\min_{\underset{\text{W,H}}{\text{W,H}}} & \|\mathbf{X}-\mathbf{WH}\|_{F}^2+\beta\cdot\operatorname{vol}(\mathbf{W})+\lambda\|\mathbf{H}-\mathbf{MS}\|_{F}^2\\ & \text{s.t. H}\geq\mathbf{0},\mathbf{1}^{T}\mathbf{H}=\mathbf{1}^{T},\\ & \|\mathbf{S}(:,j)\|_0=1,\mathbf{S}(k,j)\in\{0,1\}.\\ & \\ & \end{aligned}
W,HW,Hmin∥X−WH∥F2+β⋅vol(W)+λ∥H−MS∥F2s.t. H≥0,1TH=1T,∥S(:,j)∥0=1,S(k,j)∈{0,1}.
其中第二项是K-means惩罚,它强制H列上的聚类先验,并且调优参数λ≥0平衡数据保真度和聚类先验。
优化步骤: 自己重新查原文,不想看了
注解:(优缺点 + 随便想记的内容 )
1、Latent clustering: 将原始数据X映射到某一个潜在表示空间中进行计算样本点之间的距离从而聚类。
2、他在论文里面还提到了很多分解方式+K-means的结合,但是我不想看了,公式看着头疼