调试神经网络过程中遇到的问题

最新推荐文章于 2023-02-02 17:25:56 发布

爱护阳光

最新推荐文章于 2023-02-02 17:25:56 发布

阅读量347

点赞数

分类专栏：安装编译的问题深度学习图神经网络

本文链接：https://blog.csdn.net/weixin_41764013/article/details/94121138

版权

安装编译的问题同时被 3 个专栏收录

4 篇文章 0 订阅

订阅专栏

深度学习

4 篇文章 0 订阅

订阅专栏

图神经网络

4 篇文章 0 订阅

订阅专栏

在这里简单记录一下自己在调试过程中遇到bug：
1、可能会遇到不知名的错误，大概就是139电脑内存不足的问题，但是我网络输入比较下，按理说此问题不存在的，后来换到服务器就好了
2、另一个就是cuda的问题，需要用的变量都都应该转移到cuda上面，并且与网络是同步的，神经网络中定义的参数也应该单独的转移到GPU上面，因为net.to(device)好像并不会将网络中定义的变量转移到上面。
3、最让头疼的是这个问题：RuntimeError: Trying to backward through the graph a second time, but the buffers have already been freed. Specify retain_graph=True when calling backward the first time.
此时问题出现的情况有多种，一定要仔细检查下自己的网络结构的逻辑，出现的根本原因是：在第一次计算完损失之后，第一个生成的计算图并没有完全的消失（或者说生成的计算变量），导致在第二次backward的时候找到第一次的变量进行梯度计算，但是第一次的计算图已经不在完整了。
4、最后，对于required_grad=True的叶子tensor不能使用in-place操作，此操作直接在原来的内存上改变它的值。
对于求解梯度需要用的tensor也不能用in-place，因为求解梯度的过程中，用的tensor是不应该改变的。

爱护阳光

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
调试神经网络过程中遇到的问题

在这里简单记录一下自己在调试过程中遇到bug：1、可能会遇到不知名的错误，大概就是139电脑内存不足的问题，但是我网络输入比较下，按理说此问题不存在的，后来换到服务器就好了2、另一个就是cuda的问题，需要用的变量都都应该转移到cuda上面，并且与网络是同步的，神经网络中定义的参数也应该单独的转移到GPU上面，因为net.to(device)好像并不会将网络中定义的变量转移到上面。3、最让头...
复制链接

扫一扫