word2vec中的subsampling和negative sampling

最新推荐文章于 2023-10-25 22:09:53 发布

杨晓茹

最新推荐文章于 2023-10-25 22:09:53 发布

阅读量2.1k

点赞数 2

分类专栏： RNN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42421001/article/details/81667119

版权

RNN 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

实现word2vec的skip-gram神经网络训练模型中，通过一个矩阵将输入的n维向量转化为m维向量，考虑到模型输入层和输出层的权重，会产生m*n*2个权重，一般词汇表长度n很大，name调整修正这么多权重使训练速度降低，同时需要大量的训练数据来调整权重防止过拟合，这样又增加了这个网络训练的复杂性。为了解决这个问题，Word2vec的作者又提出了三种方法：

1. 把常用的词组作为一个单词，例如new york经常只代表纽约，与new和york有完全不同的语义，所以把这两个词组合更加合理

2. subsampling：在采样过程中以一定的概率丢弃一些常见的词（猜测太常见可能只表示修饰，并没有具体含义），采样的具体做法这里不做介绍

比如单词the,一般对我们真正想表达的内容没有影响反而出现次数很多，这时我们就可以在采样中删除它

关于降采样的保留某个单词的概率在论文中一般采用下列公式：

公式里面主要有两个参数：

z(wi)：某个单词在词库中出现的概率，wi表示某个具体的单词

0.001：为参数sample的值，控制了降采样的程度，0.001为一般设置的值，sample值越小表示扔掉词的概率越大

当sample为0.001时，这个公式的图像如下：

从图中我们可以总结出一些有趣的规律：

（1）当z(wi)<=0.0026时，P(wi)约等于1，我们不会扔掉这些词

（2）当z(wi)<=0.00746时，P(wi)=0.5，表示我们对于这个词公平对待

3. negative sampling：每次训练样本输入后，在反向传播时仅更新部分权重

比如原来的模型需要2*n*m个权重，现在只需要更新2*x*m个权重，一般x<<n,且x = 1+negative samples

如下图所示，原来需要更新6个权重，确定负样本之后，只需更新黑色加粗所对应的4个权重

那么negative samples怎么确定呢？

假设negative samples =k,则选取词库中k个出现概率最大的词

论文中写到这个概率采用下列公式计算，其中f(wi)表示这个单词在词库中出现的频次

0.75这个超参数是试出来的，性能比其他参数好

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
word2vec中的subsampling和negative sampling

实现word2vec的skip-gram神经网络训练模型中，通过一个矩阵将输入的n维向量转化为m维向量，考虑到模型输入层和输出层的权重，会产生m*n*2个权重，一般词汇表长度n很大，name调整修正这么多权重使训练速度降低，同时需要大量的训练数据来调整权重防止过拟合，这样又增加了这个网络训练的复杂性。为了解决这个问题，Word2vec的作者又提出了三种方法：1. 把常用的词组作为一个单词，例如...
复制链接

扫一扫

专栏目录

杨晓茹 CSDN认证博客专家 CSDN认证企业博客

码龄6年

9: 原创

26万+: 周排名

217万+: 总排名

4万+: 访问

: 等级

547: 积分

10: 粉丝

14: 获赞

5: 评论

105: 收藏

私信

关注

热门文章

分类专栏

最新评论

numpy.cov协方差矩阵计算/官方文档解读
Chasing Aurora: 默默任是行哦
word2vec中的subsampling和negative sampling
CSDN-Ada助手: 非常感谢您分享关于word2vec中的subsampling和negative sampling的博客，这些技术在自然语言处理中非常重要。我觉得您可以继续写关于word2vec技术的博客，例如“如何使用gensim库实现word2vec模型”或者“word2vec模型在聊天机器人中的应用”。这样的技术文章对其他用户学习和应用自然语言处理技术非常有帮助。相信您的下一篇博客会有更多读者欣赏和学习。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
numpy.cov协方差矩阵计算/官方文档解读
电航427: 请问下，np.cov默认是一列一个样本，计算中的np.cov数组是2*3的矩阵，那应该是3个样本，得到的协方差矩阵应该是3*3 为什么结果是2*2的矩阵
标准RNN的推导
XMiOSTool: 大神，教教
LSTM与GRU
weixin_40981614: 老哥，GRU下一个ht的计算公式写错啦

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。