深度学习NLP笔记(二):Negative sampling(负采样)和Hierarchical softmax(层次softmax)

本文详细介绍了基于skip-gram模型的两种训练方法:Negative sampling(负采样)和Hierarchical softmax(层次softmax)。负采样通过选取K个噪声词降低计算复杂度至与K相关;层次softmax利用二叉树结构将复杂度降至O(logV),有效提升了训练效率。
摘要由CSDN通过智能技术生成

两种训练方法都基于skip-gram模型讲解。

一、Negative sampling(负采样)

构建词向量模型时,之所以会出现时间复杂度为词典大小v的情况,就在于softmax这个函数,它会把词典中的每一个词考虑进概率的表达式当中。
  假设我们把中心词生成背景词这一事件分解为两个独立的事件:(i)中心词wc和背景词wo同时出现在训练窗口;(ii)中心词wc和第K个噪声词wK没有同时出现在训练窗口。我们可以使用sigmoid函数来表示中心词wc和背景词wo同时出现在训练窗口的概率: P ( D = 1 ∣ w o , w c ) = σ ( u o T v c ) P(D=1|w_{o},w_{c})=\sigma (u_{o}^{T}v_{c}) P(D=1wo,wc)=σ(uoTvc) σ ( x ) = 1 1 + e − x \sigma (x)=\frac{1}{1+e^{-x}} σ(x)=1+ex1
  D=1表示同时出现在训练窗口。
  由上,可以推出联合概率,取对数可以得到: l o g P ( w o ∣ w c ) = l o g [ P ( D = 1 ∣ w o , w c ) ∏ k = 1 , w k ∼ P ( w ) K P ( D = 0 ∣ w k , w c ) ] logP(w_{o}|w_{c})=log\left [ P(D=1|w_{o},w_{c})\prod_{k=1,w_{k}\sim P(w)}^{K}P(D=0|w_{k},w_{c}) \right ] logP(wowc)=logP(D=1w

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值