损失test1

最新推荐文章于 2024-07-11 13:17:21 发布

没咋了

最新推荐文章于 2024-07-11 13:17:21 发布

阅读量110

点赞数 2

文章标签：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_53371353/article/details/132866366

版权

本文探讨了如何通过增强预训练Transformer模型的[CLS]嵌入和使用AngularMarginContrastLoss/ArcConLoss提升句子表示的语义捕捉能力，以更好地处理成对关系和三元组句子的蕴含关系，同时关注Dropout优化策略。

摘要由CSDN通过智能技术生成

训练目标是提高成对判别能力，并对三元组句子的蕴涵关系进行建模。

最近，随着预训练的基于transformer的语言模型的巨大成功和BERT一样，它们被广泛用于生成句子表示。一种直接的方法是利用[CLS]嵌入(Devlin等人，2019)或在类bert预训练语言模型的最后几层应用均值池(Reimers和Gurevych, 2019)。然而，未经进一步微调的预训练语言模型的句子嵌入不能很好地捕获句子的语义，有时甚至不如GloVe 等非上下文化嵌入。

(Additive Angular Margin contrast Loss, ArcCon Loss)，它通过最大化角空间中的决策边际来增强两两判别能力。

为了对句子之间的正负成对关系进行建模，我们首先需要生成句子表征，并将它们分组为正负对。然后将这些对输入到训练目标中进行优化。

droppout=0.1，m=10, tao=0.05

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
损失test1

最近，随着预训练的基于transformer的语言模型的巨大成功和BERT一样，它们被广泛用于生成句子表示。一种直接的方法是利用[CLS]嵌入(Devlin等人，2019)或在类bert预训练语言模型的最后几层应用均值池(Reimers和Gurevych, 2019)。然而，未经进一步微调的预训练语言模型的句子嵌入不能很好地捕获句子的语义，有时甚至不如GloVe 等非上下文化嵌入。为了对句子之间的正负成对关系进行建模，我们首先需要生成句子表征，并将它们分组为正负对。然后将这些对输入到训练目标中进行优化。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。