Perturbed Masking: Parameter-free Probing for Analyzing and Interpreting BERT

最新推荐文章于 2022-01-29 23:02:02 发布

蒸土豆的技术细节

最新推荐文章于 2022-01-29 23:02:02 发布

阅读量673

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39006282/article/details/107489271

版权

这是一篇比较新的论文，2020/6/10 ACL。

它讲述的是如何用无监督方法做英文句法分析。

句法分析的工作是：
给定一个序列 $X=[x_1,x_2,...,x_n]$
找到一个分割点k，使得 $x_1,...x_{k-1}]$ 和 $x_k,...,x_n]$ 的相关度最小，而两者内部token的相关度最大。根据分割点k，就可以把原始句子分为
$x_1,...x_{k-1}],[x_k],[x_{k+1},...,x_n]$ 三部分。
如果左右两侧token数还很多，就要递归地继续再分，直到全部分成了最小单位。
所以就需要找到一个最佳分割点，优化一个目标使类间相关度最小，类内相关度最大。
所以接下来的任务就是如何得到基于token的相关度了。

如何用bert的无监督获取相关度

了解Bert应该知道它的mask language model，我们就是利用这个。

用数据集+Bert训练词向量。
对于X中的词i，我们mask它，获得词i的上下文表示，即i的基于上下文的词向量 $A_1$ 。
再同时mask掉i和i+1位置的词，获得i位置的基于上下文的词向量 $A_2$ 。
我们知道，第二个词向量的信息是没有第一个多的，少的那部分是i+1缺失引起的，所以完全可以用 $A_1$ 和 $A_2$ 的欧氏距离 $d(A_1,A_2)$ 大小来判断两者的相关度。 $d$ 越大， $i + 1$ 对 $i$ 的影响越大，相关度越大。
如此我们可以列出一个 $n \times n$ 的相关度矩阵。
接下来就是上文提到的句法分析操作了。

对于中文，强烈建议看这篇文章，附带实验结果

因为论文使用的数据是英文，所以跨到中文就有一个分词的坎。但需要知道，分词也是可以依靠相关度来做的。我们可以获得每一个字的左右相关度，然后设定一个阈值，低于它的全部切开。
不过别抱太大希望，效果肯定没有监督学习来的好。

分词后就可以重新计算词与词之间的相关度了。

蒸土豆的技术细节

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Perturbed Masking: Parameter-free Probing for Analyzing and Interpreting BERT

这是一篇比较新的论文，2020/6/10 ACL。它讲述的是如何用
复制链接

扫一扫

蒸土豆的技术细节 CSDN认证博客专家 CSDN认证企业博客

码龄7年

55: 原创

9万+: 周排名

2万+: 总排名

5万+: 访问

: 等级

1071: 积分

47: 粉丝

59: 获赞

19: 评论

184: 收藏

私信

关注

热门文章

最新评论

奇怪的错误记录
大数据小朋友: 这是一篇高质量的好文，深度理解和清晰的表达方式使复杂的技术概念变得容易理解，值得收藏点赞。博主用心很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，期盼博主能够光顾我的博客，给予宝贵的指导！
PathSim和HeteSim的简单记录
CSDN-Ada助手: 非常感谢您分享有关PathSim和HeteSim的知识，这些都是非常有价值的内容。我想鼓励您继续撰写关于图数据挖掘的博客，尤其是关于比较不同算法之间的差异和应用场景的文章。比如，您可以写一篇关于NGBoost和Catboost的对比分析，或者是比较Louvain算法和CNM算法在社区发现方面的应用效果等等。期待您的下一篇博客！ 2023年博客之星「城市赛道」年中评选已开启（https://activity.csdn.net/creatActivity?id=10470&utm_source=blog_comment_city ），博主的原力值在所在城市已经名列前茅，持续创作就有机会成为所在城市的 TOP1 博主（https://bbs.csdn.net/forums/blogstar2023?typeId=3152981&utm_source=blog_comment_city），更有丰厚奖品等你来拿~。
钓鱼网站url的识别
__byb__: 这里有https://www.heywhale.com/mw/project/5e7ac69998d4a8002d2cf7d1/dataset
BallTree结构和答疑
qq_41873505: 您好，请问ball树有效的“高维”能高到什么程度？
TransE, TransR
蒸土豆的技术细节: transH只是给了个一对多的简单的解决办法，但一上复杂数据就不行了，transR认为是你把关系空间硬挤在实体空间限制了嵌入，所以把关系空间摘出来看看能不能应付复杂数据，结果就是确实行。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。