寺里LZS-CSDN博客

原创理一下CUDA、CUDA toolkit和NVCC

参考：一文讲清楚CUDA、CUDA toolkit、CUDNN、NVCC关系_健0000的博客-CSDN博客_cudatoolkit和cuda有关系吗理清GPU、CUDA、CUDA Toolkit、cuDNN关系以及下载安装_tomorrow″的博客-CSDN博客_cudatoolkit和cuda,cudnn的关系吗关于三者的介绍，上述两篇博客写的很全面，这里再记录一下我自己的理解。CUDA可以分成Runtime API与Driver API，CUDA Toolkit是Runtime API，Dr.

2022-03-29 16:57:21 3912

原创 Numpy中的Boardcast机制

二维方阵每行单独归一化，实现时没报错，但结果并不对，debug后发现原来是自己对numpy的boardcast理解有误，以下记录。boardcast依次遵循三项原则：1、如果两个数组维数不相等，维数较低的数组的shape会从左开始填充1，直到和高维数组的维数匹配2、如果两个数组维数相同，但某些维度的长度不同，那么长度为1的维度会被扩展，和另一数组的同维度的长度匹配3、如果两个数组维数相同，但有任一维度的长度不同且不为1，则报错参考：NumPy二元运算的broadcasting机制

2021-11-24 20:46:28 1237

原创 Transformer decoder中masked attention的理解

前前后后看了挺久的Transformer，本以为自己理解了，可实现起来总觉得差点意思。encoder比较简单，不多介绍。记录一下decoder的使用。masked attention是要使用一个上三角矩阵torch.triu来实现对未来信息的掩盖。为什么就掩盖未来信息了？看了这篇博客，明白了但没完全明白，说是decoder在训练时用的groundtruth，防止误差累积，取得比较好的训练结果，但这样也没发现decoder的输入中有未来信息啊。在实践中，发现在训练时，如果要实现这个任务，.

2021-11-09 08:52:03 4483

原创 Torch中transformer模块中两种mask的用法

官方代码给的解释两种mask看的太绕，这里记录一下先贴出原文解释先理解mask是要将某位置忽略（ignore），不参与计算，而unmask反之。第一种mask是用于masked attention模块，对于byteTensor，0代表mask，非0代表unmask，对于boolTensor，True代表unmask，False代表mask。（感觉跟原文不太对，但实验结果就是这样）第二种mask是用于padding过程，True代表mask，False代表unmask。参考：Tr.

2021-11-08 15:36:26 2682

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 理一下CUDA、CUDA toolkit和NVCC

原创 Numpy中的Boardcast机制

原创 Transformer decoder中masked attention的理解

原创 Torch中transformer模块中两种mask的用法

空空如也

空空如也

原创理一下CUDA、CUDA toolkit和NVCC