自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 理一下CUDA、CUDA toolkit和NVCC

参考:一文讲清楚CUDA、CUDA toolkit、CUDNN、NVCC关系_健0000的博客-CSDN博客_cudatoolkit和cuda有关系吗理清GPU、CUDA、CUDA Toolkit、cuDNN关系以及下载安装_tomorrow″的博客-CSDN博客_cudatoolkit和cuda,cudnn的关系吗关于三者的介绍,上述两篇博客写的很全面,这里再记录一下我自己的理解。CUDA可以分成Runtime API与Driver API,CUDA Toolkit是Runtime API,Dr.

2022-03-29 16:57:21 3873

原创 Numpy中的Boardcast机制

二维方阵每行单独归一化,实现时没报错,但结果并不对,debug后发现原来是自己对numpy的boardcast理解有误,以下记录。boardcast依次遵循三项原则:1、如果两个数组维数不相等,维数较低的数组的shape会从左开始填充1,直到和高维数组的维数匹配2、如果两个数组维数相同,但某些维度的长度不同,那么长度为1的维度会被扩展,和另一数组的同维度的长度匹配3、如果两个数组维数相同,但有任一维度的长度不同且不为1,则报错参考:NumPy二元运算的broadcasting机制

2021-11-24 20:46:28 1194

原创 Transformer decoder中masked attention的理解

前前后后看了挺久的Transformer,本以为自己理解了,可实现起来总觉得差点意思。encoder比较简单,不多介绍。记录一下decoder的使用。masked attention是要使用一个上三角矩阵torch.triu来实现对未来信息的掩盖。为什么就掩盖未来信息了?看了这篇博客,明白了但没完全明白,说是decoder在训练时用的groundtruth,防止误差累积,取得比较好的训练结果,但这样也没发现decoder的输入中有未来信息啊。在实践中,发现在训练时,如果要实现这个任务,.

2021-11-09 08:52:03 4213

原创 Torch中transformer模块中两种mask的用法

官方代码给的解释两种mask看的太绕,这里记录一下先贴出原文解释先理解mask是要将某位置忽略(ignore),不参与计算,而unmask反之。第一种mask是用于masked attention模块,对于byteTensor,0代表mask,非0代表unmask,对于boolTensor,True代表unmask,False代表mask。(感觉跟原文不太对,但实验结果就是这样)第二种mask是用于padding过程,True代表mask,False代表unmask。参考:Tr.

2021-11-08 15:36:26 2603

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除