NLP中向量表示的各向异性

sunghosts

已于 2023-09-28 01:01:40 修改

阅读量496

点赞数

分类专栏： NLP 文章标签：自然语言处理人工智能深度学习

于 2023-01-09 16:19:59 首次发布

NLP 专栏收录该内容

36 篇文章 3 订阅

订阅专栏

各向异性(Anisotropic) 的概念在BERT-flow的文章中有明确的定义：

“Anisotropic” means word embeddings occupy a narrow cone in the vector space.

翻译过来就是：“各向异性”表示词嵌入在向量空间中占据了一个狭窄的圆锥形体。但这个定义有点过于场景化，实际上各向异性的表现形式并不一定是锥形。

各向异性最早是一个物理概念，是指物体的全部或部分物理、化学等性质随方向的不同而有所变化的特性。各向异性在向量空间上的含义就是分布与方向有关系，而各向同性就是各个方向都一样，比如二维的空间，各向异性和各向同性对比如下(左图为各向异性，右图为各向同性)：
在这里插入图片描述

学者们(Gao et al. 2019 和 Wang et al. (2020))发现Transformer学到的词向量在空间的分布是这个样子的：

在这里插入图片描述

Ethayarajh, 2019 发现类似的情况在BERT，GPT-2中同样存在。看上面的图就知道模型学到的向量分布是各向异性的。

各向异性的缺点

各向异性就有个问题，那就是最后学到的向量都挤在一起，彼此之间计算余弦相似度都很高，并不是一个很好的表示。一个好的向量表示应该同时满足Alignment 和 uniformity，前者表示相似的向量距离应该相近，后者就表示向量在空间上应该尽量均匀，最好是各向同性的。

如何消除各向异性？

解决各向异性的方法有很多，比如

1. 映射为各向同性

BERT-flow的工作就是将原来的分布校准为高斯分布。标准的高斯分布就是各向同性的。
在这里插入图片描述

类似的还有whitening操作。大概流程就是根据SVD分解的结果，旋转缩放后得到一个标准正态分布。
在这里插入图片描述

2. 消除主成分

参见论文：

A Simple but Tough-to-Beat Baseline for Sentence Embeddings

All-but-the-Top: Simple and Effective Postprocessing for Word Representations

3. 正则化

参见论文：

Representation Degeneration Problem in Training Natural Language Generation Models

有图有真相，一图胜千言。看图学知识，让你理解得更加透彻。点击下方关注，学习更多计算机知识。

参考

https://www.zhihu.com/question/460991118/answer/2353153090

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
NLP中向量表示的各向异性

sdf
复制链接

扫一扫

专栏目录

sunghosts CSDN认证博客专家 CSDN认证企业博客

码龄13年

148: 原创

3万+: 周排名

1万+: 总排名

18万+: 访问

: 等级

2528: 积分

30: 粉丝

92: 获赞

41: 评论

396: 收藏

私信

关注

热门文章

分类专栏

机器学习 36篇
NLP 36篇
tensorflow，pytorch 9篇
LeetCode 31篇
算法 8篇
numpy，pandas，scipy，matplotlib 9篇
读书
大数据 3篇
elasticsearch 2篇
可视化 1篇
数据结构 1篇
windows 4篇
数据库 10篇
linux 11篇
C/C++ 5篇
Lucene 2篇
设计模式 14篇
python 37篇
shell 5篇
JavaScript 4篇
HTML/CSS/XML 4篇
网络 6篇
Nginx 1篇
工具 9篇
maven 4篇
UML 1篇

最新评论

腾讯word2vec模型缩小版
qq_43624252: 我想问一下这些模型是不是不能进行增量训练了
Linux上部署Jupyter notebook
Ndk开发校长: 这篇文章是优质之作，内容充实，结构明晰，语言流畅且通俗易懂，适合广大读者阅读。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
pytorch加速-SDPA缩放的点乘注意力
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
【Conda】python进行离线环境迁移（用于配置相似的两台设备）
XYG.破绽: 请问如果没有虚拟环境，只有base环境，怎么进行迁移呢？
详解seaborn中的kdeplot、rugplot、distplot与jointplot
LeoZack: 最新的可以看这个链接： https://blog.csdn.net/hustlei/article/details/123091236

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。