当BERT-whitening引入超参数：总有一款适合你

最新推荐文章于 2024-04-23 17:04:02 发布

PaperWeekly

最新推荐文章于 2024-04-23 17:04:02 发布

阅读量503

点赞数

文章标签：人工智能机器学习深度学习神经网络 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/124919122

版权

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

在《你可能不需要 BERT-flow：一个线性变换媲美 BERT-flow》中，笔者提出了 BERT-whitening，验证了一个线性变换就能媲美当时的 SOTA 方法 BERT-flow。此外，BERT-whitening 还可以对句向量进行降维，带来更低的内存占用和更快的检索速度。然而，在《无监督语义相似度哪家强？我们做了个比较全面的评测》中我们也发现，whitening 操作并非总能带来提升，有些模型本身就很贴合任务（如经过有监督训练的 SimBERT），那么额外的 whitening 操作往往会降低效果。

为了弥补这个不足，本文提出往 BERT-whitening 中引入了两个超参数，通过调节这两个超参数，我们几乎可以总是获得“降维不掉点”的结果。换句话说，即便是原来加上 whitening 后效果会下降的任务，如今也有机会在降维的同时获得相近甚至更好的效果了。

方法概要

目前 BERT-whitening 的流程是：

其中是给定的句向量（如无说明，向量默认为行向量），是变换后的向量，SVD 分解的结果中，是正交矩阵，是对角矩阵，并且

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
当BERT-whitening引入超参数：总有一款适合你

©PaperWeekly 原创 ·作者 | 苏剑林单位 | 追一科技研究方向 | NLP、神经网络在《你可能不需要 BERT-flow：一个线性变换媲美 BERT-flow》中，笔者提出了 BERT-whitening，验证了一个线性变换就能媲美当时的 SOTA 方法 BERT-flow。此外，BERT-whitening 还可以对句向量进行降维，带来更低的内存占用和更...
复制链接

扫一扫

PaperWeekly CSDN认证博客专家 CSDN认证企业博客

码龄7年

1397: 原创

7413: 周排名

167: 总排名

525万+: 访问

: 等级

4万+: 积分

8090: 粉丝

5738: 获赞

988: 评论

2万+: 收藏

私信

关注

热门文章

最新评论

ICLR 2023 | 如何融合进化算法与强化学习打破性能瓶颈？
第三题真的很简单qwq: 机翻一下然后收费
文末送书！解构大语言模型：从线性回归到通用人工智能
风灵月影宗大师兄: 这是一篇高质量的好文，深度理解和清晰的表达方式使复杂的技术概念变得容易理解，值得收藏点赞。博主用心很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，期盼博主能够光顾我的博客，给予宝贵的指导！
文末送书！解构大语言模型：从线性回归到通用人工智能
风灵月影宗大师兄: 这是一篇高质量的好文，深度理解和清晰的表达方式使复杂的技术概念变得容易理解，值得收藏点赞。博主用心很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，期盼博主能够光顾我的博客，给予宝贵的指导！
文末送书！解构大语言模型：从线性回归到通用人工智能
风灵月影宗大师兄: 这是一篇高质量的好文，深度理解和清晰的表达方式使复杂的技术概念变得容易理解，值得收藏点赞。博主用心很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，期盼博主能够光顾我的博客，给予宝贵的指导！
ICLR 2024 | 首个零阶优化深度学习框架，MSU联合LLNL提出DeepZero
wakababu: 第二部分是不是有一些数学符号没显示出来啊

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。