预训练模型语义相似性计算(九)--向量表示相关论文

1.ConveRT: Efficient and Accurate Conversational Representations from Transformers

paper:https://arxiv.org/pdf/1911.03688.pdf

code:

论文被EMNLP2020收录。

作者在pretrain+fine-tune 的方式的基础上提出了一个更轻量级的预训练回复选择模型 ConveRT,并且模型还可以引入了更多的对话历史信息。另外,模型学习的句子编码可以 transfer 到其他对话任务(eg.意图识别)。

如图分别为单轮对话和多轮对话的模型结构:

论文主要针对目前预训练模型过大,训练和预测的计算资源消耗过大,提出一个更小的模型。具体措施包括:子词表示(subword representation)、单头注意力机制(single-headed attention)、量化感知训练(quantization-aware training)等,该模型与其他模型相比,参数更少、训练时间更短、且具有更好的性能。

性能比较:

2.DialogueCSE: Dialogue-based Contrastive Learning of Sentence Embeddings

paper:https://export.arxiv.org/pdf/2109.12599.pdf

code:

论文被EMNLP2021收录,来自阿里达摩院。

作者解读:EMNLP 2021论文分享会 - 机器智能技术实验室专场 - DAMO Academy

文本使用对比学习从多轮对话数据中学习对话文本的向量表示。

网络结构:

对比学习下的文本表示


在SimCSE的成功之后,出现了很多在此基础上的改进。
    1.ACL2022:SCD: Self-Contrastive Decorrelation for Sentence Embeddings
        在对比损失的基础上增加了向量的相关矩阵损失
        https://github.com/SAP-samples/acl2022-self-contrastive-decorrelation/
    2.NAACL2022:DiffCSE: Difference-based Contrastive Learning for Sentence Embeddings
        通过electra模型得到对比句子,该方法是等边对比学习的一个实例。
        https://github.com/voidism/DiffCSE
    3.SNCSE: Contrastive Learning for Unsupervised Sentence Embedding with Soft Negative Samples
        通过依存分析方法构造hard 负样本
        https://github.com/Sense-GVT/SNCSE 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值