Pytorch
文章平均质量分 91
介绍pytorch的使用采坑和总结记录。
Tai Fook
高歌猛进!
展开
-
nvidia.dali:深度学习加速神器!
最近准备准备整合一个基于pytorch的深度学习平台,把常用的训练推理流程、模型、数据管理、metric测试以及各种有效的黑科技攒到一起,作为个人的使用工具可以提升算法开发和实验效率。为了验证不同特性的有效性选择在比较有说服力的imagenet上进行实验。之前也做过很多次imagenet的训练和模型复现,但是训练一次imagenet比较耗时。最近使用上了一个比较有效的数据预处理框架:nvidia.dali,感觉效果不错。DALI的概念 Nvidia DALI,NVIDIA’s Data Loadi原创 2021-01-29 17:08:48 · 6438 阅读 · 6 评论 -
Pytorch采坑记录:DDP加载之前的checkpoint后loss上升(metric下降)
最近在鼓捣使用pytorch的distributeddataparallel这个API搭一个数据并行的训练测试任务,过程中遇到了一个问题,做一下记录。1、问题 使用DDP打包了一个模型训练了一段时间,loss不断下降metric不断上升,一切都是很正常的现象。当因为意外暂停或者手动暂停更改学习率而停止了程序,再开启程序加载之前的checkpoint继续训练,却发现loss突然比之前上升或者metric比之前下降了很多。仔细看了一下loss的值,发现直接回到刚开始第一次训练模型时的水平,仿佛chec原创 2021-01-22 12:10:10 · 4649 阅读 · 7 评论 -
Pytorch采坑记录:每隔num_workers个iteration数据加载速度很慢
最近在做某个视觉任务的模型训练,由于数据量比较少为了效果好一点,决定现在imagenet上pretrain一下骨干网络。但是在训练的时候遇到了一个问题:每隔num_workers个iteration数据加载都很慢,通过查找资料和代码搞清了这个问题。背景 设计了一个网络做目标检测,骨干网络是自己diy的因此没有pretrain的模型。而目标检测的数据集比较小,为了把模型训的好一点决定现把骨干网络搭一个分类头做个分类模型,在ImageNet上面pretrain一下。于是乎下载了imagenet的数据集原创 2021-01-19 20:36:21 · 7193 阅读 · 4 评论
分享