2020/06/17 更新:pytorch实现了后两种方法的代码,见地址:https://blog.csdn.net/weixin_41089007/article/details/106802819
最近看论文的时候发现好几篇改进词向量的小论文,方法虽然不复杂但是都挺有意思的,可能在工业界的某些任务上有奇效,分享一下~
1.平均加权词向量
paper:https://arxiv.org/abs/2002.05606
方法
先,分别用word2vec和glove计算出各个单词的词向量,后将其归一化:
其中,d代表word2vec或者glove词向量的尺寸d1或d2,w是word2vec或glove算法输出的单词的向量,表示归一化的单词向量。 然后将评论的评论向量r计算为标准化单词向量的平均值:
<