预训练模型语义相似性计算(七) -套娃向量表示和动态层的组合拳

最新推荐文章于 2024-07-21 07:50:37 发布

choose_c

最新推荐文章于 2024-07-21 07:50:37 发布

阅读量284

点赞数 3

分类专栏：文本表示文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/choose_c/article/details/137450726

版权

文本表示专栏收录该内容

13 篇文章 1 订阅

订阅专栏

作者博客链接：Matryoshka Representation Learning (MRL) from the Ground Up | Aniket Rege
论文：https://arxiv.org/pdf/2205.13147.pdf
sbert库实现：Losses — Sentence-Transformers documentation

动态层
论文：https://arxiv.org/pdf/2402.14776v1.pdf
sbert库实现：https://www.sbert.net/docs/package_reference/losses.html#adaptivelayerloss
sbert组合实现：Losses — Sentence-Transformers documentation

Matryoshka Representation Learning

openai2024年1月25日更新了向量表示模型，比上一代openai的向量模型更强大。为了平衡计算成本和表示效果，使用了俄罗斯套娃向量表示（MRL）技术，传入维度参数后可以指定输出向量的维度大小。
MRL旨在设计一个灵活的表示可以适应不同下游任务的计算资源。MRL 为表示向量配备了所需的灵活性和多保真度，可以保证接近最优的精度与计算权衡。有了这些优势，MRL 实现了基于准确性和计算约束的自适应部署。
架构：

训练代码：MRL/train_mrl.py at main · TTurn/MRL · GitHub

2D Matryoshka Sentence Embeddings

尽管 MRL 的效率有所提高，但在获得嵌入之前仍然需要遍历所有 Transformer 层，这仍然是时间和内存消耗的主要因素。这提示考虑了固定数量的 Transformer 层是否会影响表示质量，以及是否使用中间层进行句子表示是可行的。本文引入一种新的句子嵌入模型，称为二维Matryoshka句子嵌入(2DMSE)。它支持嵌入大小和Transformer层的弹性设置，提供了比MRL更大的灵活性和效率。
架构：

训练代码：

MRL/train_adapterLayer.py at main · TTurn/MRL · GitHub

MRL/train_M2d.py at main · TTurn/MRL · GitHub

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
预训练模型语义相似性计算(七) -套娃向量表示和动态层的组合拳

尽管 MRL 的效率有所提高，但在获得嵌入之前仍然需要遍历所有 Transformer 层，这仍然是时间和内存消耗的主要因素。这提示考虑了固定数量的 Transformer 层是否会影响表示质量，以及是否使用中间层进行句子表示是可行的。它支持嵌入大小和Transformer层的弹性设置，提供了比MRL更大的灵活性和效率。有了这些优势，MRL 实现了基于准确性和计算约束的自适应部署。为了平衡计算成本和表示效果，使用了俄罗斯套娃向量表示（MRL）技术，传入维度参数后可以指定输出向量的维度大小。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。