Word2vec

Word2Vec

Word2vec是一种从原始语料学习获得低维、实值、稠密的词向量表示的方法,核心思想是使得具有相似上下文的字/词能够在向量空间具有相近的距离。word2vec比较好的解决了one-hot词向量的词汇鸿沟问题,最经典的例子就是“国王-王后=男人-女人”。

基本思想和直观理解

word2vec的基本框架可以描述为:

  • 我们有一个大规模的语料库以及词库
  • 词库中的每个词都有一个向量表达
  • 遍历文档中的每个位置 t t ,我们有一个center word c和context/outside words o⃗  o →
    • 所谓context word是指在给定window size下center word的邻近词
  • 通过词向量 c⃗  c → o⃗  o → 之间的相似度来计算 p(c⃗ |o⃗ ) p ( c → | o → ) 或者 p(o⃗ |c⃗ ) p ( o → | c → )
  • 不断调整词向量来最大化这个概率

这里写图片描述

这里写图片描述

word2vec有两种架构:

  • Skip gram:根据center word来预测context word
  • CBOW (continuous bag of words): 根据context word来预测center word
神经网络架构

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

Why one-hot

权重矩阵的行其实就是我们需要的词向量。
这里写图片描述
因此权重矩阵也称为”word vector lookup table“。
这里写图片描述


参考资料

Word2Vec Tutorial - The Skip-Gram Model
Stanford CS 224n- word2vec slides
Stanford CS 224n- word2vec lecture notes
learn word2vec by implementing it in tensorflow

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值