
debug log:Function ‘MambaSplitConv1dScanCombinedFnBackward‘ returned nan values in its 0th output.
最近一个困扰了我一周的bug,我在使用mamba进行编码时,出现了梯度爆炸的问题。但是,当我将其集成到我的模型中时,NaN 值开始出现。有趣的是,它在一台服务器上运行良好,但是当我切换到另一台服务器时,会显示 NaN 值。再后来我尝试将mamba源码,直接与我的模块拼接未直接调用mamba的三方库,发现编码依然出现nan值,我便一一查看mamba块的输入。发现原来是卷积层在定义的时候,卷积层的权重中出现了nan值,虽然不清楚为什么,但是这个问题好解决。

















