nlp3

最新推荐文章于 2022-05-23 16:13:44 发布

StellaLiu萤窗小语

最新推荐文章于 2022-05-23 16:13:44 发布

阅读量127

点赞数

分类专栏：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/anqi3776/article/details/114157410

版权

笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

我们知道，Word2vec 本质上是一个语言模型，它的输出节点数是 V 个，对应了 V 个词语，也是一个多分类问题，但实际当中，词语的个数非常非常多，直接softmax来计算会给计算造成很大困难，所以需要用技巧来加速训练，下面就介绍word2vec对应的两个加速技巧hierarchical softmax和negative sampling。注意：这两个技巧只是加速训练的技巧

Negative Sampling
第二种加速策略是Negative Sampling（简写NEG，负采样），这是Noise-Contrastive Estimation（简写NCE，噪声对比估计）的简化版本：把语料中的一个词串的中心词替换为别的词，构造语料 D 中不存在的词串作为负样本。本质上就是一个预测全部分类的变成预测总体类别的子集的方法。在这种策略下，优化目标变为了：最大化正样本的概率，同时最小化负样本的概率。对于一个词串 [公式] （ c 表示 w 的上下文），用二项Logistic回归模型对其是正样本的概率建模：

介绍下不同种类的attention:1. hard 和soft的 2. local和global 3. 单头self-attention和muti- head attention 4. 基于memory的attention

不同类型的attention

StellaLiu萤窗小语

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
nlp3

我们知道，Word2vec 本质上是一个语言模型，它的输出节点数是 V 个，对应了 V 个词语，也是一个多分类问题，但实际当中，词语的个数非常非常多，直接softmax来计算会给计算造成很大困难，所以需要用技巧来加速训练，下面就介绍word2vec对应的两个加速技巧hierarchical softmax和negative sampling。注意：这两个技巧只是加速训练的技巧Negative Sampling第二种加速策略是Negative Sampling（简写NEG，负采样），这是Noise-Con
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。