Jeff Dean强推:可视化Bert网络,发掘其中的语言、语法树与几何学

大数据文摘出品

来源:pair-code.github

作者:Andy Coenen等

编译:刘佳玮、万如苑、龙心尘


本文是论文(Visualizing and Measuring the Geometry of BERT)的系列笔记的第一部分。这篇论文由Andy Coenen、Emily Reif、Ann Yuan、Kim、Adam Pearce、Fernanda Viegas和Martin Wattenberg撰写。


近日,谷歌大脑负责人Jeff Dean在推特上安利了一篇文章☟


.

这篇文章是为了补充解释论文,大致呈现了主要的结论。请参阅论文以获得完整的参考文献和更多信息。



论文地址:

https://arxiv.org/abs/1906.02715


语言是由离散结构构成的,而神经网络是在连续数据——高维空间的向量——上运算的。一个成功的语言处理网络必须将这些符号信息转换成某种几何形式来表示——但是是以什么形式呢?词嵌入(Word Embedding)提供了两个众所周知的样例:用距离来编码语义相似性,而某些方向则对应词语的极性(例如男性和女性)。


最近一项惊人的发现指向了一种全新的表示形式。句子的句法结构是句子语言信息的一个重要组成部分。这个结构可以用树来表示,它的节点则对应于句子中的单词。休伊特(Hewitt)和曼宁(Manning)在《一种用于在单词表示中查找语法的结构探针》中指出,一些语言处理网络构造了这种语法树的几何副本。而单词是在高维空间中给定的位置,并且(经过一定的转换)这些位置之间的欧氏距离(Euclidean distance)可以映射到树的距离。


但这一发现带来了一个有趣的难题。树的距离与欧氏距离之间的映射不是线性的。相反,休伊特和曼宁发现树的距离对应着欧氏距离的平方。他们于是提出了为什么需要平方距离,以及是否存在其他可能的映射的问题。


这篇短文为这个难题提供了一些可能的答案。我们证明了从数学的角度来看,树映射的平方距离是特别自然的。甚至某些随机的树嵌入也遵循近似的平方距离定律。而且,只要知道平方距离关系,我们就可以对嵌入树的整体形状给出一个简单、明确的描述。


我们通过分析和可视化一个网络(BERT)中的真实世界的嵌入,以及它们如何系统地不同于它们的数学理想化状态来完善这些观点。这些经验性的发现提出了一种新的定量的方法来思考神经网络中的语法表示。(如果你只是为了看经验结果和可视化效果,请直接跳到这一节。)


树嵌入理论


如果你要把一棵树嵌入欧氏空间,为什么不让树的距离直接对应于欧氏距离呢?一个原因是,如果树有分支,就不可能等构地(isometrically)实现。


图1所示。你不能等构地把这棵树嵌入欧氏空间


事实上,图1中的树是一个标准示例,它表明并不是所有度量空间都可以等构地嵌入到R^n其中。因为d(A,B)=d(A,X)+d(X,B), 在任何嵌入中,A,X, B都是共线的。同理,A,X,C是共线的。但这意味着B=C,这就矛盾了。所以并不是所有度量空间都可以等构地嵌入到R^n其中。


如果一棵树有任何分支也包含一

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值