常用词向量对比

常用词向量方法对比

本文测试常用的几个WordEmbedding方法,并对比效果

常用词向量

  1. Word2Vec

    这是通过上下文信息预测词向量方法的典型代表,主要包括CBOW和Skip-gram两种,测试用的是CBOW + NegtiveSampling

    代码:https://code.google.com/p/word2vec/

    论文:https://arxiv.org/pdf/1301.3781.pdf

  2. Glove

    利用统计的方法,对词及其上下文词的出现频率进行建模,论文还将模型原理与word2vec进行对比,分析其相似性和差异;

    原理上看,两种模型出发点相似,但是建模时损失函数设置与参数的形式有差异(理解得对吗?)

    代码:https://github.com/stanfordnlp/GloVe

    论文:http://nlp.stanford.edu/pubs/glove.pdf

  3. Fasttext

    fasttext做wordEmbedding的时候,认为词是由英文字母组成,包含相似的字母结构的词应该有共性,该方法借鉴Word2vec,增加词内字母的信息做辅助

    代码:https://github.com/facebookresearch/fastText

    论文:https://arxiv.org/pdf/1607.04606

  4. word2gm

    借鉴Word2vec,认为词在不同上下文中可能语义不同(多义词居多),一词对应一个vector不足以反映这类信息,考虑一词多个Embedding,借助高斯混合模型学习词的每个子向量

    代码:https://github.com/benathi/word2gm

    论文:https://arxiv.org/abs/1704.08424

  5. prob-fasttext

    fasttext考虑了字母信息,但是没考虑一词多义,将word2gm和fasttext的思想混合,每个词用2个embedding结果表示,其中一个是字母构成的embedding,一个是自身的embeeding,论文称,实验表明,2个embedding足以表示词的信息

    代码:

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值