《Supporting Clustering with Contrastive Learning》学习

论文名:Supporting Clustering with Contrastive Learning

论文来源:NAACL 2021

问题

聚类

在学习过程的开始阶段,不同类别在表征空间中经常存在重叠部分,这给基于距离的聚类实现不同类别之间的划分带来了巨大的挑战
在这里插入图片描述
如original所示,在此基础上进行显式聚类效果不太好。而instance-CL正好可以达到将实例分散开,同时在一定程度上隐式的完成实例聚类。
虽然instance-CL会让实例分组在一起,但是对于表示来说,只要不是从同一个实例来的,那么表示就会被分开,所以instance-CL可以作为一种预训练的步骤。

短文本聚类

文本短,导致实例的signal比较弱,因此像tf-idf会产生稀疏的表示向量,缺乏表达能力。因此做embedding
然而这些方法学习过程分多个阶段,每个阶段要独立优化(这里不太理解)

因此将预训练transformer作为骨干网络,以端到端的方式进行优化。

模型

其中使用Contextual Augmenter(Kobayashi, 2018; Ma, 2019)作为增强方式获得增强集
在这里插入图片描述

Loss

优化自顶向下的聚类损失和自底向上的实例对比损失
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

创新点

将对比学习和聚类结合起来,通过联合优化原始数据实例上的聚类损失和关联增强对上的对比损失进行训练,并利用对比学习来促进更好地实现不同语义类别之间的分离。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值