读 A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings

铁三运动员

于 2021-09-13 23:54:35 发布

阅读量263

点赞数

分类专栏：读paper 文章标签： nlp

本文链接：https://blog.csdn.net/bassbian/article/details/120278238

版权

简单说length normalization就是在TFIDF统计词在文本中匹配的次数的时候文本长度的影响。比如给定一个query和一长一短两个文本，如果那个长文本贼长，那它就有更大的可能性匹配上这个query。length normalization用文本长度归一化函数来panelize一个长文本。具体还有不能过度惩罚和pivoted length normalizer（ROSS: pivot！pivot！pivot！）[length normalization](https://yxkemiya.git

摘要由CSDN通过智能技术生成

这个training的目的就是得到"linear transformation matrices Wx and Wz so the mapped embeddings XWx and ZWz are in the same cross-lingual space."

四个步骤实现：

1. embedding normalization

这步的目的是得到一个similarity的表示方法。the dot product of any two embeddings is equivalent to their cosine similarity and directly related to their euclidean distance and can be taken as a measure of their similarity. 两个embedding的点乘就是euclidean距离，就是相似性。

2.Fully unsupervised initialization

其实你想mapping的难点是什么。就是mapping不上。还是用两个embedding X和Z举例，X里面的第i个词和Z里面的第i个词可能并不是对应词意的词。而

最低0.47元/天解锁文章

铁三运动员

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
读 A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings

简单说length normalization就是在TFIDF统计词在文本中匹配的次数的时候文本长度的影响。比如给定一个query和一长一短两个文本，如果那个长文本贼长，那它就有更大的可能性匹配上这个query。length normalization用文本长度归一化函数来panelize一个长文本。具体还有不能过度惩罚和pivoted length normalizer（ROSS: pivot！pivot！pivot！）[length normalization](https://yxkemiya.git
复制链接

扫一扫