Supporting Clustering with Contrastive Learning论文笔记

这篇博客探讨了对比学习在聚类任务中的应用,指出了Instance-CL存在的问题,即只关注负样本对的距离增大而不考虑其相似性。论文提出了一种网络架构,包括特征生成器、实例-CL头和聚类头。特征生成器采用transformer(distilbert-base-nli-stsb-mean-tokens)作为基础,实例-CL头通过Contextual Augmenter增强数据并计算损失,而聚类头则采用了自优化策略和学生分布来实现更精确的聚类。总损失函数结合了实例-CL损失和KL损失,以优化聚类效果。
摘要由CSDN通过智能技术生成

论文链接

总结

跟之前读过的Contrastive learning一文整体相似(笔记),但是clustering head部分略有不同。

Instance-CL(contrastive learning)的问题

它虽然使正样本对之间距离减小,但它在增大负样本对之间距离时,只会尽可能增大它们之间的距离,而完全不顾它们之间的相似性。

网络

在这里插入图片描述
分为三部分:feature generator、instance-CL head、clustering head。

输入解释

( x i 1 , x i 2 ) (x_{i_1},x_{i_2}) (xi1,xi2)是由同一个数据 x i x_i xi增广出的数据对。

Feature generator

文章的任务是对text进行聚类,所以这一部分使用了一个transformer(distilbert-base-nli-stsb-mean-tokens)作为backbone。(输出应该是768维的特征向量)

Instance-CL head

这一部分的输入是增广后的数据的特征向量,这里的增广方法是Contextual Augmenter,是根据实践得出的较好方法。
文章将由同一个原始输入增广出的两个数据作为正样本对,与其它数据为负样本对。
在计算loss之前,需要用MLP将输入(特征向量768维)降维到特征向量为128维的数据 z z z
对于单个数据的loss定义如下:
在这里插入图片描述
s i m sim sim是指两个向量夹角的cos值, τ \tau

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值