NAACL 2021 | AWS AI 提出基于对比学习的端到端无监督聚类方法

©PaperWeekly 原创 · 作者 | 李婧蕾

学校 | 北京邮电大学硕士生

研究方向 | 自然语言处理

Abstract

无监督聚类的目的是根据在表示空间中的距离发现数据的语义类别。然而,在学习过程的开始阶段,不同类别在表征空间中经常存在重叠部分,这给基于距离的聚类实现不同类别之间的划分带来了巨大的挑战。为此,本文提出了(SCCL)——一个利用对比学习促进更好空间划分的新框架。

论文标题:

Supporting Clustering with Contrastive Learning

论文链接:

https://arxiv.org/abs/2103.12953

代码链接:

https://github.com/amazon-research/sccl

本文对 SCCL 在短文本聚类方面的性能进行了评估,结果表明,SCCL 显著提高了大多数基准数据集的前沿结果,在准确率方面提高了 3%-11%,在标准化互信息方面提高了 4%-15%。此外,当使用 ground truth 聚类标签进行评估时,本文的定量分析还证明了 SCCL 在利用自底向上的实例鉴别和自顶向下的聚类优势来实现更好的簇内和簇间距离方面的有效性。

近年来,许多研究致力于将聚类与深度表示学习结合起来。尽管有很好的改进,但聚类性能仍然不足,特别是在存在大量聚类的复杂数据的情况下。如 Figure1 所示,一个可能的原因是,即使使用深度神经网络,在聚类开始之前,不同类别的数据仍然有显著的重叠。因此,通过优化各种基于距离或相似度的聚类目标学习到的聚类纯度较低。

另一方面,实例对比学习(Instance-CL)最近在自我监督学习方面取得了显著的成功。Instance-CL 通常对通过数据扩充获得的辅助集进行优化。然后,顾名思义,采用对比损失将从原始数据集中的同一实例中增强的样本聚在一起,同时将来自不同实例的样本分开。本质上,Instance-CL 将不同的实例分散开来,同时隐式地将相似的实例在某种程度上聚集在一起(参见 Figure1)。通过将重叠的类别分散开来,可以利用这个有利的属性来支持聚类。然后进行聚类,从而更好地分离不同的簇,同时通过显式地将簇中的样本聚集在一起来收紧每个簇。

为此,本文提出了基于对比学习的支持聚类(SCCL),通过联合优化自顶向下的聚类损失和自底向上的实例对比损失。本文评估了 SCCL 在短文本聚类方面的表现,由于社交媒体如 Twitter 和 Instagram 的流行,短文本聚类变得越来越重要。它有利于许多现实世界的应用,包括主题发现,推荐和可视化。然而,由噪声和稀疏性引起的微弱信号给短文本聚类带来了很大的挑战。尽管利用浅层神经网络来丰富表征已经取得了一些改进,仍有很大的改进空间。

本文用 SCCL 模型解决了这个挑战。本文的主要贡献如下:

  • 本文提出了一种新颖的端到端无监督聚类框架,大大提高了各种短文本聚类数据集的最新结果。此外,本文的模型比现有的基于深度神经网络的短文本聚类方法要简单得多,因为那些方法通常需要多阶段的独立训练。

  • 本文提供了深入的分析,并演示了 SCCL 如何有效地结合自上而下的聚类和自下而上的实例对比学习,以实现更好的类间距离和类内距离。

  • 本文探讨了用于 SCCL 的各种文本增强技术,结果表明,与图像域不同,在文本域使用复合增强并不总是有益的。

Model 

本文的目标是开发

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
引用:论文"Text Generation from Knowledge Graphs with Graph Transformers"介绍了一种使用图转换器(Graph Transformer)生成文本的方法。这篇论文于2019年在自然语言处理领域的顶级会议NAACL上发表。 引用:在这种方法中,通过将知识图谱表示为一个有连接但没有标签的图,来生成文本。这个图被表示为G=(V,E),其中V表示实体、关系和全局向量节点,E表示连接矩阵。这里的G和V不同于之前提到的图G和v。 引用:论文中进行了自动评估和人工评估的实验。在自动评估中,使用了名为GraphWriter的模型,其中将图转换器编码器替换为图注意力网络(Graph Attention Network)。此外,还进行了其他实验,包括只使用实体和标题信息的Entity Writer、只使用文章标题的Rewriter等。 综上所述,"Text Generation from Knowledge Graphs with Graph Transformers"论文提出了一种使用图转换器生成文本的方法,并通过实验证明了该方法的有效性。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [【论文解读】基于图Transformer从知识图谱中生成文本](https://blog.csdn.net/qq_27590277/article/details/107925756)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值