word2vec 核心简记

  • Huffman编码:

    用词频作为词权重,构造 Huffman 树生成的 Huffman 编码,满足语料库总编码长度的期望最短。(频率高的编码短,频率低的编码长)

  • n-gram:

    (n-1)阶Markov假设:词概率只与它前面 n-1 个词有关。复杂度 O(Nn) O ( N n ) 。需要平滑(类似 Bayes)
    n=1 n = 1 即是 unigram

2 Hierarchical Softmax
  • n-gram下词 wi w i 的上下文Context( wi w i ):

    C(wi)=(win,,wi1wi+1,,wi+n) C ( w i ) = ( w i − n , ⋯ , w i − 1 , w i + 1 , ⋯ , w i + n )

  • 每个词的词向量: v(w) v ( w )

2.1 CBOW(continuous bag of word):
  • 概率模型及其对数似然函数:

    p(w|C(w))L=wDlogp(w|C(w)) p ( w | C ( w ) ) L = ∑ w ∈ D log ⁡ p ( w | C ( w ) )

  • 输入层: C(w) C ( w )

  • 投影层的构造: x(w)=wC(w)v(w) x ( w ) = ∑ w ′ ∈ C ( w ) v ( w ′ )
  • 输出层:
    Huffman 树,叶子节点 N N (词个数)个,非叶子节点 N1个。
    从根节点向下找到词 w w 的叶节点有唯一路径 j,到每一层 j j 的结点(有一个权重θj)向下做二分裂,相当于做一次二分类 σ(x(w)θj) σ ( x ( w ) ⋅ θ j ) 。向左为负类( tj+1=0 t j + 1 = 0 ),右为正类( tj+1=1 t j + 1 = 1 )。
    最终找到词 w w 的概率 P 及对数似然函数 L L
    p(w|C(w))=j=1wp(tj+1|x(w),θj)=j=1wσ(x(w)θj)tj+1[1σ(x(w)θj)]1tj+1L=wlogj=1wp(tj+1|x(w),θj)=wj=1w(tj+1logσ[x(w)θj]+(1tj+1)log(1σ[x(w)θj])) p ( w | C ( w ) ) = ∏ j = 1 → w p ( t j + 1 | x ( w ) , θ j ) = ∏ j = 1 → w σ ( x ( w ) ⋅ θ j ) t j + 1 ⋅ [ 1 − σ ( x ( w ) ⋅ θ j ) ] 1 − t j + 1 L = ∑ w log ⁡ ∏ j = 1 → w p ( t j + 1 | x ( w ) , θ j ) = ∑ w ∑ j = 1 → w ( t j + 1 log ⁡ σ [ x ( w ) ⋅ θ j ] + ( 1 − t j + 1 ) log ⁡ ( 1 − σ [ x ( w ) ⋅ θ j ] ) )

t t 是与 w 有关的(每次找不同的 w),θ只与结点有关,与词无关?

2.2 skip-gram:
  • 输入层: v(w) v ( w )
  • 输出层:
    Huffman树。从顶层根结点向下找到每个 uC(w) u ∈ C ( w ) 。每个结点的二分裂与CBOW 类似。
    概率模型及其对数似然函数:
    p(C(w)|w)=uC(w)p(u|w)=uC(w)j=1uσ(v(w)θj)tj+1[1σ(v(w)θj)]1tj+1L=wloguC(w)p(u|w)wuC(w)j=1u(tj+1logσ[v(w)θj]+(1tj+1)log(1σ[v(w)θj])) p ( C ( w ) | w ) = ∏ u ∈ C ( w ) p ( u | w ) = ∏ u ∈ C ( w ) ∏ j = 1 → u σ ( v ( w ) ⋅ θ j ) t j + 1 ⋅ [ 1 − σ ( v ( w ) ⋅ θ j ) ] 1 − t j + 1 L = ∑ w log ⁡ ∏ u ∈ C ( w ) p ( u | w ) ∑ w ∑ u ∈ C ( w ) ∑ j = 1 → u ( t j + 1 log ⁡ σ [ v ( w ) ⋅ θ j ] + ( 1 − t j + 1 ) log ⁡ ( 1 − σ [ v ( w ) ⋅ θ j ] ) )
3. Negative sampling(NEG)

用随机负采样替代 Huffman 树,提高效率。

  • 词向量: v(w) v ( w ) ,简写 vw v w
  • 每个词的上下文Context(w): C(w) C ( w ) xw=x(w)=uC(w)v(u) x w = x ( w ) = ∑ u ∈ C ( w ) v ( u )
  • 每个词的负采样集合: NEG(w) N E G ( w )
  • 每个词的辅助权重: θw θ w
3.1 CBOW

对每一组样本 (w,C(W)) ( w , C ( W ) ) ,最大化 p(c(w)w) p ( c ( w ) → w ) ,最小化 uNEG(w)p(c(w)u) ∏ u ∈ N E G ( w ) p ( c ( w ) → u ) , 即最大化的单样本似然函数 g(w) g ( w ) 。及语料库 D D 的总似然函数 L

g(w)=p(w|C(w))uNEG(w)p(u|C(w))=σ(xwθw)uNEG(w)[1σ(xwθu)]L=wDlogg(w)=wlogσ(xwθw)+uNEG(w)log[1σ(xwθu)] g ( w ) = p ( w | C ( w ) ) ∏ u ∈ N E G ( w ) p ( u | C ( w ) ) = σ ( x w ⋅ θ w ) ∏ u ∈ N E G ( w ) [ 1 − σ ( x w ⋅ θ u ) ] L = ∑ w ∈ D log ⁡ g ( w ) = ∑ w [ log ⁡ σ ( x w ⋅ θ w ) + ∑ u ∈ N E G ( w ) log ⁡ [ 1 − σ ( x w ⋅ θ u ) ] ]

3.2 skip gram

对每一组样本 (w,C(W)) ( w , C ( W ) ) ,?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值