- 博客(2)
- 收藏
- 关注
原创 关于pytorch( Could not run ‘aten::empty_strided‘ with arguments from the ‘CUDA‘ backend)问题
在当时博主一直以为是有某些与cuda的相关操作,但后来发现是load函数的问题,在之后博主把 torch.load函数改为 torch.jit.load函数后,便可以运行了。因为博主使用的是CPU版本torch,然而该项目在发布时使用了GPU,在修改device后发现依旧无法跑通,最后发现是一个函数的问题。但为什么会这样 博主目前也不是很清楚,今天打算研究一下为何会这样,如果有知道原因的uu可以在评论区分享一下。
2023-11-02 14:30:19 1104
原创 relu梯度过大导致神经元死亡问题
权重更新: 权重新值=当前权重值-学习率*当前权重的梯度,当学习率过大:会导致学习率*当前权重的梯度过大,进而导致权重新值为负,当权重新值为负,任何输入的正值*权重参数后都会变为负值,负值通过relu函数后都会变为0,从而使此神经元失效;同时,relu在0处的导数为0,因此后边不会有机会通过反向传播将负的权重值重新变为正值,因此次神经元将会永久失效。这有助于缓解神经元死亡问题。ELU是一种允许小于零的输入有一个非零斜率的激活函数,它在一定程度上缓解了神经元死亡问题,并提供了更平滑的激活。
2023-10-31 20:02:44 250 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人