NLP-transformer部分知识点

cyz0202

已于 2022-06-15 10:56:09 修改

阅读量505

点赞数 1

分类专栏：技术问题 # 深度学习文章标签： transformer 自然语言处理深度学习

于 2022-05-17 10:21:12 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cyz0202/article/details/124815171

版权

技术问题同时被 2 个专栏收录

56 篇文章 0 订阅

订阅专栏

28 篇文章 0 订阅

订阅专栏

1. Scaled Dot-Product Attention中为什么要除以 $\sqrt{d_k}$

计算公式： $Attention(Q,K,V) = Softmax(\frac{QK^T}{\sqrt{d_k}})V$
在softmax中起到temperature的作用，即使分布趋于平滑，增加可能性
为什么是 $d_k$ 而不是 3、4、5等随便一个数。。。
解释一下上述引用内容
- 一个比较强的假设：q、k属于多维独立同分布（标准正太分布N~(0,1)）随机变量
- 则 $E(q \cdot k) = E(\sum^{d_k}_{i=1}u_iv_i) = \sum^{d_k}_{i=1}E(u_iv_i) = 0$ ，
- 同时根据独立同分布随机变量和的方差等于方差的和，可以得到
- $D(q \cdot k) \\ = D(\sum^{d_k}_{i=1}u_iv_i) \\ = \sum^{d_k}_{i=1}D(u_iv_i) \\ = d_k * D(u_iv_i) \\ = d_k * [E(u_i^2v_i^2)-E^2(u_iv_i)] \\ = d_k * E(u_i^2v_i^2) \\ = d_k * Eu_i^2 * Ev_i^2 \\ = d_k$
- 可以发现点积后，均值不变，但是方差发生明显变化；为了使模型在一个统一的标准正太分布中学习，上述式子除以 $\sqrt{d_k}$ 即可满足要求；

2. transformer encoder对单词进行embedding时，为什么乘以 $\sqrt{d_k}$ （来自知乎）

假设embedding table是用 Xavier初始化，即 $E\sim N(0, \frac{1}{d_{model}})$
从onehot -> embedding，相当于从上述总体分布采样了 $d_{model}$ 个样本，合起来称为该总体的一组子样本；
记某组子样本（ $d_{model}$ 维）的均值、样本方差分别为 $\overline{X}$ 、 $S^2$ ，可得

$E(\overline{X}) = 0\\ E(S^2) = 1/d_{model}$

所以 $Embedding \sim N(0, 1/d_{model})$ ，乘以 $\sqrt{d_k}$ 以达到统一的标准正态分布的目的（知乎@王四喜）
那么为什么不直接用 $N \sim (0, 1)$ 进行初始化？
知乎@Towser解释：因为transformer中可以设置tied-embedding的存在（减少参数），此时比如 decoder最后输出softmax前，需要做一次线性映射（Linear）到词汇空间，linear的weight即来自于embedding的weight；线性层需要用到Xavier初始化，因此embedding层也就先用Xavier初始化，再缩放回来；

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
NLP-transformer部分知识点

1. Scaled Dot-Product Attention中为什么要除以-
复制链接

扫一扫

专栏目录

cyz0202 CSDN认证博客专家 CSDN认证企业博客

码龄6年

59: 原创

8万+: 周排名

192万+: 总排名

8万+: 访问

: 等级

1062: 积分

12: 粉丝

103: 获赞

25: 评论

260: 收藏

私信

关注

热门文章

分类专栏

技术问题 56篇
CUDA 4篇
计算机系统与网络 1篇
数据库 2篇
python 3篇
paper 4篇
工具 5篇
编程小技巧 1篇
算法 10篇
MachineLearning 5篇
深度学习 28篇
spark 2篇
量化 8篇
maven

最新评论

RealFormer
@小明月: 请问作者有只用RealFormer的代码吗
CUDA实现focal_loss
杰哥亡命天涯: 膜拜，原来这玩意还要跳到C++
Intel Distiller工具包-量化实现1
weixin_44717709: 不能自动回调收集器中定义的那些更新统计数据的方法
Intel Distiller工具包-量化实现1
weixin_44717709: if not os.path.isfile(stats_file): man_model = torch.load( 'D:\\Users\\mengy\\PycharmProjects\\audio-separation-localization\\Cone_of_Silence\\checkpoints\\lstm_from_pretrained_10000_man_model.pt') distiller.utils.assign_layer_fq_names(man_model) collector = QuantCalibrationStatsCollector(man_model) stats_file = './acts2.yaml' test_dir = "D:\\Users\\mengy\\PycharmProjects\\audio-separation-localization\\Cone_of_Silence\\generate\\my_test" def eval_for_stats(model): evaluate(test_dir, model, use_cuda=False, moving=False, debug=False, mic_radius=0.03231, n_workers=8, n_voices=2, prec_recall=True, oracle_position=False, sr=44100, n_channels=4) collect_quant_stats(man_model, eval_for_stats, save_dir='.')我是这样使用的
Intel Distiller工具包-量化实现1
weixin_44717709: 请问有没有收集变量的统计数据那块的详细代码？或者需要改哪些部分？我的不知道为什么没有收集成功只是走了一遍评估程序

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。