常用词向量对比

最新推荐文章于 2023-04-19 21:32:43 发布

GZGlenn

最新推荐文章于 2023-04-19 21:32:43 发布

阅读量2.5k

点赞数 2

分类专栏： nlp 文章标签： wordembedding 词向量 word2vec fasttext 对比

本文链接：https://blog.csdn.net/hubin232/article/details/81272126

版权

本文对比了Word2Vec、Glove、Fasttext和word2gm等词向量方法，探讨了它们在词相似性和词类推任务上的表现。实验结果显示，Word2Vec在小数据量下展现出较好的鲁棒性，而复杂模型在小数据集上可能无法充分展示优势。Fasttext利用词内字母信息，对于多义词处理有一定优势。

摘要由CSDN通过智能技术生成

常用词向量方法对比

本文测试常用的几个WordEmbedding方法，并对比效果

Word2Vec

这是通过上下文信息预测词向量方法的典型代表，主要包括CBOW和Skip-gram两种，测试用的是CBOW + NegtiveSampling

代码：https://code.google.com/p/word2vec/

论文：https://arxiv.org/pdf/1301.3781.pdf
Glove

利用统计的方法，对词及其上下文词的出现频率进行建模，论文还将模型原理与word2vec进行对比，分析其相似性和差异;

原理上看，两种模型出发点相似，但是建模时损失函数设置与参数的形式有差异（理解得对吗？）

代码：https://github.com/stanfordnlp/GloVe

论文：http://nlp.stanford.edu/pubs/glove.pdf
Fasttext

fasttext做wordEmbedding的时候，认为词是由英文字母组成，包含相似的字母结构的词应该有共性，该方法借鉴Word2vec，增加词内字母的信息做辅助

代码：https://github.com/facebookresearch/fastText

论文：https://arxiv.org/pdf/1607.04606
word2gm

借鉴Word2vec，认为词在不同上下文中可能语义不同（多义词居多），一词对应一个vector不足以反映这类信息，考虑一词多个Embedding，借助高斯混合模型学习词的每个子向量

代码：https://github.com/benathi/word2gm

论文：https://arxiv.org/abs/1704.08424
prob-fasttext

fasttext考虑了字母信息，但是没考虑一词多义，将word2gm和fasttext的思想混合，每个词用2个embedding结果表示，其中一个是字母构成的embedding，一个是自身的embeeding，论文称&

关注

专栏目录