- 博客(4)
- 收藏
- 关注
原创 理一下CUDA、CUDA toolkit和NVCC
参考:一文讲清楚CUDA、CUDA toolkit、CUDNN、NVCC关系_健0000的博客-CSDN博客_cudatoolkit和cuda有关系吗理清GPU、CUDA、CUDA Toolkit、cuDNN关系以及下载安装_tomorrow″的博客-CSDN博客_cudatoolkit和cuda,cudnn的关系吗关于三者的介绍,上述两篇博客写的很全面,这里再记录一下我自己的理解。CUDA可以分成Runtime API与Driver API,CUDA Toolkit是Runtime API,Dr.
2022-03-29 16:57:21 3912
原创 Numpy中的Boardcast机制
二维方阵每行单独归一化,实现时没报错,但结果并不对,debug后发现原来是自己对numpy的boardcast理解有误,以下记录。boardcast依次遵循三项原则:1、如果两个数组维数不相等,维数较低的数组的shape会从左开始填充1,直到和高维数组的维数匹配2、如果两个数组维数相同,但某些维度的长度不同,那么长度为1的维度会被扩展,和另一数组的同维度的长度匹配3、如果两个数组维数相同,但有任一维度的长度不同且不为1,则报错参考:NumPy二元运算的broadcasting机制
2021-11-24 20:46:28 1237
原创 Transformer decoder中masked attention的理解
前前后后看了挺久的Transformer,本以为自己理解了,可实现起来总觉得差点意思。encoder比较简单,不多介绍。记录一下decoder的使用。masked attention是要使用一个上三角矩阵torch.triu来实现对未来信息的掩盖。为什么就掩盖未来信息了?看了这篇博客,明白了但没完全明白,说是decoder在训练时用的groundtruth,防止误差累积,取得比较好的训练结果,但这样也没发现decoder的输入中有未来信息啊。在实践中,发现在训练时,如果要实现这个任务,.
2021-11-09 08:52:03 4483
原创 Torch中transformer模块中两种mask的用法
官方代码给的解释两种mask看的太绕,这里记录一下先贴出原文解释先理解mask是要将某位置忽略(ignore),不参与计算,而unmask反之。第一种mask是用于masked attention模块,对于byteTensor,0代表mask,非0代表unmask,对于boolTensor,True代表unmask,False代表mask。(感觉跟原文不太对,但实验结果就是这样)第二种mask是用于padding过程,True代表mask,False代表unmask。参考:Tr.
2021-11-08 15:36:26 2682
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人