NLP深度学习 —— CS224学习笔记3

最新推荐文章于 2022-04-12 13:27:12 发布

wangli0519

最新推荐文章于 2022-04-12 13:27:12 发布

阅读量678

点赞数

分类专栏： NLP 文章标签： NLP 笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangli0519/article/details/77486327

版权

NLP 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

四、3、 Skip-Gram 模型

另一种方法是得到中间的词，然后由模型来预测或生成周边的词。这种模型被成为Skip-Gram模型。

设置与此前的CBOW大致相同，只是调换了x和y的顺序。

具体可以分解成6步：

1）生成one hot 向量 x

2)得到语境的嵌入词向量

3）将

4）生成2m得分向量使用

5）将每个得分转换成概率y=softmax(u)

6）期望生成的概率与真实概率相符

如同CBOW，我们需要生成一个目标函数来评估模型。一个重要的不同点是我们使用简单贝叶斯假设来分解概率，即高度条件独立假设，给定词与周边词完全无关。

最小化

有了这个目标函数，可以计算未知参数的梯度，然后通过随机梯度下降在每次迭代时更新。

4、负抽样

目标函数中对于|V|的计算量是非常巨大的。

任何更新或对目标函数的评估需要O(|V|)时间，所以我们考虑是否可用近似的方法来降低成本。

对每步训练，我们仅采几个负样本，而不遍历所有词汇。

我们从干扰分布（Pn(w))中取样，该概率与词频排序相配。

我们需要更新目标函数，梯度，更新规则。

虽然负取样基于Skip-Gram模型，但事实优化不同目标。

考虑一组词和语境（w，c），如果它来自语料集概率记作P(D=1|w,c)，否则P(D=0|w,c).

首先用sigmoid函数为第一种情况建模

现在我们构建一个新的目标函数并试图最大化相符的概率。

我们采用简单最大似然的方法，这里我们使用theta作为参数，在我么例子中应是V和U。

新的目标函数为

上述取样自Pn(w)。有很多关于Pn(w)的讨论，但最有效的是在Unigram模型中设置成3/4

可以看出对常见词的提升较少而对罕见词提升概率较大。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。