常用词向量对比

本文对比了Word2Vec、Glove、Fasttext和word2gm等词向量方法,探讨了它们在词相似性和词类推任务上的表现。实验结果显示,Word2Vec在小数据量下展现出较好的鲁棒性,而复杂模型在小数据集上可能无法充分展示优势。Fasttext利用词内字母信息,对于多义词处理有一定优势。
摘要由CSDN通过智能技术生成

常用词向量方法对比

本文测试常用的几个WordEmbedding方法,并对比效果

常用词向量

  1. Word2Vec

    这是通过上下文信息预测词向量方法的典型代表,主要包括CBOW和Skip-gram两种,测试用的是CBOW + NegtiveSampling

    代码:https://code.google.com/p/word2vec/

    论文:https://arxiv.org/pdf/1301.3781.pdf

  2. Glove

    利用统计的方法,对词及其上下文词的出现频率进行建模,论文还将模型原理与word2vec进行对比,分析其相似性和差异;

    原理上看,两种模型出发点相似,但是建模时损失函数设置与参数的形式有差异(理解得对吗?)

    代码:https://github.com/stanfordnlp/GloVe

    论文:http://nlp.stanford.edu/pubs/glove.pdf

  3. Fasttext

    fasttext做wordEmbedding的时候,认为词是由英文字母组成,包含相似的字母结构的词应该有共性,该方法借鉴Word2vec,增加词内字母的信息做辅助

    代码:https://github.com/facebookresearch/fastText

    论文:https://arxiv.org/pdf/1607.04606

  4. word2gm

    借鉴Word2vec,认为词在不同上下文中可能语义不同(多义词居多),一词对应一个vector不足以反映这类信息,考虑一词多个Embedding,借助高斯混合模型学习词的每个子向量

    代码:https://github.com/benathi/word2gm

    论文:https://arxiv.org/abs/1704.08424

  5. prob-fasttext

    fasttext考虑了字母信息,但是没考虑一词多义,将word2gm和fasttext的思想混合,每个词用2个embedding结果表示,其中一个是字母构成的embedding,一个是自身的embeeding,论文称&

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值