简单说length normalization就是在TFIDF统计词在文本中匹配的次数的时候文本长度的影响。比如给定一个query和一长一短两个文本,如果那个长文本贼长,那它就有更大的可能性匹配上这个query。length normalization用文本长度归一化函数来panelize一个长文本。具体还有不能过度惩罚和pivoted length normalizer(ROSS: pivot!pivot!pivot!)[length normalization](https://yxkemiya.github.io/2016/06/07/coursera-TextRetrievalAndSearchEngines-week2-2/)这篇写的非常清楚。
这个training的目的就是得到"linear transformation matrices Wx and Wz so the mapped embeddings XWx and ZWz are in the same cross-lingual space."
四个步骤实现:
1. embedding normalization
这步的目的是得到一个similarity的表示方法。the dot product of any two embeddings is equivalent to their cosine similarity and directly related to their euclidean distance and can be taken as a measure of their similarity. 两个embedding的点乘就是euclidean距离,就是相似性。
2.Fully unsupervised initialization
其实你想mapping的难点是什么。就是mapping不上。还是用两个embedding X和Z举例,X里面的第i个词和Z里面的第i个词可能并不是对应词意的词。而