论文解读-SIMPLE BUT TOUGH-TO-BEAT BASELINE FOR SENTENCE EMBEDDINGS
1.论文摘要
该论文是在 ICLR 2017提出的一个无监督的句子嵌入的方法:使用维基百科等无标签的语料训练得到词向量,然后通过词向量加权平均获得句子表征向量。然后使用PCA/SVD再对句向量进行一次修正得到最终得句向量。
2. 计算句子表征的算法
先来看下论文中提出的句子表征的算法:
上面的算法过程中有两个重点:
• 为什么可以通过句子中的单词向量加权平均来获得句子初始的向量的表征?(公式(1))
• 为什么得到句子的初始向量之后要做一个修正(公式(2))
论文围绕着这两个问题进行了解答。
3. 随机
原创
2021-06-10 14:36:44 ·
281 阅读 ·
0 评论