深度学习Tensorflow的坑（二：训练一个epoch卡住不动，程序不终止也不继续）

最新推荐文章于 2023-09-02 12:55:24 发布

Dcurry

最新推荐文章于 2023-09-02 12:55:24 发布

阅读量1.4w

点赞数 6

分类专栏：笔记文章标签： tensorflow 深度学习 python 图像识别 gpu

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dcurry/article/details/121466819

版权

笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

第一篇
承接上文
在搭载好环境之后，满心欢喜准备搭载模型的绘图（损失曲线、验证精度）功能，我就先使用10个epoch跑一下，结果。
它卡在199/200了！之前从没遇到过这个情况。

先看控制台报错，说是导入CUDNN的DLL文件不成功，得，又得复制粘贴了。在这里插入图片描述
接着跑，还是不成功。
网上很多报错都是pytorch版本得dataloader，不太能够适配。我就开始自身琢磨，我发现训练过程是没问题得，那么问题是出在我的valmodel，最后一步savemodel根本没走过去（QAQ深度学习不会打断点啊！）。

那我的数据集成功导入了，为什么没有接着往下走呢？原因如下：
大佬带来的启发

我一开始设置的history_fit中的steps_per_epoch大于validation_steps，导致训练完模型之后喂给模型的数据太多了导致OOM，内存溢出。
接下来就是把validation_steps调小即可。
如果你的steps_per_epoch为200，那么validation_steps就应该是100或者更小（不建议）。最后就成功啦！
在这里插入图片描述
关于history_fit中的steps_per_epoch大于validation_steps，想深入学习的可以点开下面两个链接。
steps_per_epoch和epoch如何设置
 源码分析 steps_per_epoch 参数

以上。

关注

6
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。