Unsupervised Deep Embedding for Clustering Analysis
1 摘要
DEC是一个使用深度神经网络同时学习特征表示和聚类分配的方法。它学习从数据空间到低维特征空间的映射,其中迭代地优化聚类目标。
2 研究方法—DEC模型
A、软分配
采用学生t-分布去测量嵌入数据zi和质心
μ
\mu
μj,分配公式为:
B、KL散度初始化
其中,P表示为原有概率分布,Q表示近似概率分布。该目标函数的含义:KL散度计算的是数据的原分布与近似分布的概率的对数差的期望值。
注意:
P的选择是DEC模型的关键:
(1)加强预测,即提高团簇纯度;
(2)更加重视高置信度的数据点:
(3)规范化每一个质心的损失贡献,以防止大簇扭曲隐藏特征空间。
C、目标函数L优化
采用梯度下降法SGD优化数据点zi和质心
μ
\mu
μj
对于参数
θ
\theta
θ的优化:将zi的梯度传递给DNN,然后用标准的反向传播去计算DNN的参数
θ
\theta
θ的梯度。
D、参数的初始化
采用堆叠自动编码器(SAE)初始化DEC,因为最近的研究表明,它们在现实世界的数据集上一致地产生语义上有意义和分离良好的表示。因此,由SAE学习的无监督表示自然有助于学习具有DEC的聚类表示。
逐层初始化SAE网络,每一层都是经过训练的去噪自动编码器,在随机损坏后重建上一层的输出,其中去噪自动编码器是一个两层的神经网络,定义为:
其中,Dropout(.)是一种随机映射,它随机地将其输入维度的一部分设置为0;
g1:编码层的激活函数;
g2:解码曾的激活函数;
θ
\theta
θ={W1,b1,W2,b2}:模型的参数。
所有编码器/解码器对中使用校正线性单元(ReLUs),除了第一对的g2(它需要重建可能具有正值和负值的输入数据,例如零均值图像)和最后一对的g1(因此最终数据嵌入保留完整信息)。