初期对word2vec的改进方法+负采样注意事项

你好星期一

于 2021-12-09 21:39:39 发布

阅读量534

点赞数 1

文章标签： word2vec 机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DL_Iris/article/details/121843746

版权

一、改进方法：

1. 将常见的单词组合（word pairs）或者词组作为单个“words”来处理。
1. 对高频次单词进行抽样来减少训练样本的个数。
1. 对优化目标采用“negative sampling”方法，这样每个训练样本的训练只会更新一小部分的模型权重，从而降低计算负担。

二、负采样方法

1. 负采样：只随机选择一部分negative words来更新对应的权重（一般选择5-20个negative words）
  如何选择negative words：
1. 使用“一元模型分布（unigram distribution）”来选择“negative words”：一个单词被选作negative sample的概率跟它出现的频次有关，出现频次越高的单词越容易被选作negative words。每个单词被选为“negative words”的概率计算公式与其出现的频次有关。

参考文献：https://zhuanlan.zhihu.com/p/27234078

你好星期一

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
初期对word2vec的改进方法+负采样注意事项

一、改进方法：将常见的单词组合（word pairs）或者词组作为单个“words”来处理。对高频次单词进行抽样来减少训练样本的个数。对优化目标采用“negative sampling”方法，这样每个训练样本的训练只会更新一小部分的模型权重，从而降低计算负担。二、负采样方法负采样：只随机选择一部分negative words来更新对应的权重（一般选择5-20个negative words）如何选择negative words：使用“一元模型分布（uni
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。