1.ConveRT: Efficient and Accurate Conversational Representations from Transformers
paper:https://arxiv.org/pdf/1911.03688.pdf
code:
论文被EMNLP2020收录。
作者在pretrain+fine-tune 的方式的基础上提出了一个更轻量级的预训练回复选择模型 ConveRT,并且模型还可以引入了更多的对话历史信息。另外,模型学习的句子编码可以 transfer 到其他对话任务(eg.意图识别)。
如图分别为单轮对话和多轮对话的模型结构:
论文主要针对目前预训练模型过大,训练和预测的计算资源消耗过大,提出一个更小的模型。具体措施包括:子词表示(subword representation)、单头注意力机制(single-headed attention)、量化感知训练(quantization-aware training)等,该模型与其他模型相比,参数更少、训练时间更短、且具有更好的性能。
性能比较:
2.DialogueCSE: Dialogue-based Contrastive Learning of Sentence Embeddings
paper:https://export.arxiv.org/pdf/2109.12599.pdf
code:
论文被EMNLP2021收录,来自阿里达摩院。
作者解读:EMNLP 2021论文分享会 - 机器智能技术实验室专场 - DAMO Academy
文本使用对比学习从多轮对话数据中学习对话文本的向量表示。
网络结构:
对比学习下的文本表示
在SimCSE的成功之后,出现了很多在此基础上的改进。
1.ACL2022:SCD: Self-Contrastive Decorrelation for Sentence Embeddings
在对比损失的基础上增加了向量的相关矩阵损失
https://github.com/SAP-samples/acl2022-self-contrastive-decorrelation/
2.NAACL2022:DiffCSE: Difference-based Contrastive Learning for Sentence Embeddings
通过electra模型得到对比句子,该方法是等边对比学习的一个实例。
https://github.com/voidism/DiffCSE
3.SNCSE: Contrastive Learning for Unsupervised Sentence Embedding with Soft Negative Samples
通过依存分析方法构造hard 负样本
https://github.com/Sense-GVT/SNCSE