Supporting Clustering with Contrastive Learning
论文链接
总结
跟之前读过的Contrastive learning一文整体相似(笔记),但是clustering head部分略有不同。
Instance-CL(contrastive learning)的问题
它虽然使正样本对之间距离减小,但它在增大负样本对之间距离时,只会尽可能增大它们之间的距离,而完全不顾它们之间的相似性。
网络
分为三部分:feature generator、instance-CL head、clustering head。
输入解释
( x i 1 , x i 2 ) (x_{i_1},x_{i_2}) (xi1,xi2)是由同一个数据 x i x_i xi增广出的数据对。
Feature generator
文章的任务是对text进行聚类,所以这一部分使用了一个transformer(distilbert-base-nli-stsb-mean-tokens)作为backbone。(输出应该是768维的特征向量)
Instance-CL head
这一部分的输入是增广后的数据的特征向量,这里的增广方法是Contextual Augmenter,是根据实践得出的较好方法。
文章将由同一个原始输入增广出的两个数据作为正样本对,与其它数据为负样本对。
在计算loss之前,需要用MLP将输入(特征向量768维)降维到特征向量为128维的数据 z z z。
对于单个数据的loss定义如下:
s i m sim sim是指两个向量夹角的cos值, τ \tau