标题(paper):Robust continuous clustering
期刊 + 时间 + 有无源代码: Proceedings of the National Academy of Sciences of the United States of America (PNAS) + 2017 + 没收集
作者: Sohil Atul Shaha, and Vladlen Koltun
方法名及缩写: robust continuous clustering (RCC)
算法框架:
流程图 :
主要创新点: 提出了可以处理高维数据和大规模数据集的聚类算法
动机: 现有的聚类算法在高维上的有效性有限,并且通常需要针对不同的领域和数据集调整参数。
目标函数: RCC
C
(
U
,
L
)
=
1
2
∑
i
=
1
n
∥
x
i
−
u
i
∥
2
2
+
λ
2
∑
(
p
,
q
)
∈
E
w
p
,
q
(
l
p
,
q
∥
u
p
−
u
q
∥
2
2
+
Ψ
(
l
p
,
q
)
)
\begin{aligned} \mathbf{C}(\mathbf{U},\mathbb{L})& =\frac12\sum_{i=1}^n\|\mathbf{x}_i-\mathbf{u}_i\|_2^2 \\ &+\frac\lambda2\sum_{(p,q)\in\mathcal{E}}w_{p,q}\bigg(l_{p,q}\|\mathbf{u}_{p}-\mathbf{u}_{q}\|_{2}^{2}+\Psi(l_{p,q})\bigg) \end{aligned}
C(U,L)=21i=1∑n∥xi−ui∥22+2λ(p,q)∈E∑wp,q(lp,q∥up−uq∥22+Ψ(lp,q))
w
p
,
q
\mathcal{w}_{p,q}
wp,q,
λ
\lambda
λ是权重,
E
\mathcal{E}
E是图的边集(m-kNN构图),
ρ
(
)
\rho()
ρ()是正则化惩罚项。
x
x
x是样本,
u
u
u是对应样本的表示
为了便于优化:引入
l
p
,
q
l_{p,q}
lp,q描述每一个
(
p
,
q
)
(p,q)
(p,q)的连接关系
C
(
U
,
L
)
=
1
2
∑
i
=
1
n
∥
x
i
−
u
i
∥
2
2
+
λ
2
∑
(
p
,
q
)
∈
E
w
p
,
q
(
l
p
,
q
∥
u
p
−
u
q
∥
2
2
+
Ψ
(
l
p
,
q
)
)
\begin{aligned} \mathbf{C}(\mathbf{U},\mathbb{L})& =\frac12\sum_{i=1}^n\|\mathbf{x}_i-\mathbf{u}_i\|_2^2 \\ &+\frac\lambda2\sum_{(p,q)\in\mathcal{E}}w_{p,q}\bigg(l_{p,q}\|\mathbf{u}_{p}-\mathbf{u}_{q}\|_{2}^{2}+\Psi(l_{p,q})\bigg) \end{aligned}
C(U,L)=21i=1∑n∥xi−ui∥22+2λ(p,q)∈E∑wp,q(lp,q∥up−uq∥22+Ψ(lp,q))
Ψ
(
l
p
,
q
)
\Psi(l_{p,q})
Ψ(lp,q)是忽略连接
(
p
,
q
)
(p,q)
(p,q)的惩罚:当
l
p
,
q
→
1
l_{p,q} \to1
lp,q→1时(点连)
Ψ
(
l
p
,
q
)
=
0
\Psi(l_{p,q})=0
Ψ(lp,q)=0。
当
l
p
,
q
→
0
l_{p,q} \to 0
lp,q→0(点不连)时
Ψ
(
l
p
,
q
)
=
1
\Psi(l_{p,q})=1
Ψ(lp,q)=1.
ρ
(
y
)
=
μ
y
2
μ
+
y
2
,
\rho(y)=\frac{\mu y^2}{\mu+y^2},
ρ(y)=μ+y2μy2,
Ψ ( l p , q ) = μ ( l p , q − 1 ) 2 \Psi(l_{p,q})=\mu\Big(\sqrt{l_{p,q}}-1\Big)^2 Ψ(lp,q)=μ(lp,q−1)2
RCC-DR
C
(
U
,
Z
,
D
)
=
∥
X
−
D
Z
∥
2
2
+
γ
∑
i
=
1
n
∥
z
i
∥
1
+
ν
(
∑
i
=
1
n
∥
z
i
−
u
i
∥
2
2
+
λ
2
∑
(
p
,
q
)
∈
E
w
p
,
q
ρ
(
∥
u
p
−
u
q
∥
2
)
)
\begin{aligned}\mathbf{C}(\mathbf{U},\mathbf{Z},\mathbf{D})&=\|\mathbf{X}-\mathbf{D}\mathbf{Z}\|_2^2+\gamma\sum_{i=1}^n\|\mathbf{z}_i\|_1\\&+\nu\left(\sum_{i=1}^n\|\mathbf{z}_i-\mathbf{u}_i\|_2^2+\frac\lambda2\sum_{(p,q)\in\mathcal{E}}w_{p,q}\rho\left(\|\mathbf{u}_p-\mathbf{u}_q\|_2\right)\right)\end{aligned}
C(U,Z,D)=∥X−DZ∥22+γi=1∑n∥zi∥1+ν
i=1∑n∥zi−ui∥22+2λ(p,q)∈E∑wp,qρ(∥up−uq∥2)
优化步骤: 交替迭代最小化
更新
l
p
,
q
l_{p,q}
lp,q:
l
p
,
q
=
(
μ
μ
+
∥
u
p
−
u
q
∥
2
2
)
2
.
l_{p,q}=\left(\frac\mu{\mu+\|\mathbf{u}_p-\mathbf{u}_q\|_2^2}\right)^2.
lp,q=(μ+∥up−uq∥22μ)2.
更新
U
U
U:
arg
min
1
2
∥
X
−
U
∥
F
2
+
λ
2
∑
(
p
,
q
)
∈
E
w
p
,
q
l
p
,
q
∥
U
(
e
p
−
e
q
)
∥
2
2
,
\arg\min\frac12\|\mathbf{X}-\mathbf{U}\|_F^2+\frac\lambda2\sum_{(p,q)\in\mathcal{E}}w_{p,q}l_{p,q}\|\mathbf{U}(\mathbf{e}_p-\mathbf{e}_q)\|_2^2,
argmin21∥X−U∥F2+2λ(p,q)∈E∑wp,qlp,q∥U(ep−eq)∥22,
这里是吧原问题进行简化,后面有详细求解,不想看了,感兴趣可以查原论文。
注解:(优缺点 + 随便想记的内容 )
1、没看太明白
2、RCC-DR的优化不想看了