深度学习GPU训练网络,数据加载很慢

【仅为个人debug记录】

问题描述

用GPU训练网络的时候,每个epoch训练完都要卡顿很久,才开始下一个epoch的训练。

解决过程

Step 1. import time
初步判断问题应该出现在每次训练的头几行代码,所以import time,输出头几行代码分别的运行时间,具体使用参考博客link.
Step 2.
根据上一步,发现创建pbar这行代码用了半分钟。

pbar = tqdm(enumerate(train_data_loader), desc='Training for %g / %s epoch ' % (epoch, opt.epochs),
                    total=len(train_dataset) // train_data_loader.batch_size)

参考博客linklink。最终删去dataloader里的num_workers参数的设置,解决了问题,gpu可以快速进行网络的训练。

train_loader = DataLoader(dataset=train_dataset, batch_size=self.batch_size, #num_workers=self.num_works,
                                      shuffle=self.shuffle, drop_last=self.drop_last)
  • 7
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
深度学习数据加载慢的问题可以通过以下几种方法来解决: 1. 预处理提速:尽量减少每次读取数据时的预处理操作,可以考虑将一些固定的操作(如resize)事先处理好并保存下来,在训练时直接使用。此外,可以将预处理操作搬到GPU上进行加速,例如使用NVIDIA/DALI库。 2. IO提速: - 使用更快的图片处理库,如opencv,它通常比PIL更快。对于JPEG读取,可以尝试使用jpeg4py存储为BMP图像以降低解码时间。 - 将小图拼起来存放,以降低读取次数。 3. 使用并行加载:PyTorch的默认DataLoader会创建一些worker线程来预读取新的数据,但是除非这些线程的数据全部都被清空,否则它们不会读取下一批数据。可以使用prefetch_generator或data_prefetcher等工具来确保线程不会等待,每个线程都有至少一个数据加载。 4. 调整patience参数:在使用EarlyStopping时,patience参数表示能够容忍多少个epoch内都没有improvement。根据实际情况,可以调整patience的大小来在抖动和准确率下降之间做tradeoff。如果patience设置得大,最终得到的准确率可能略低于模型可以达到的最高准确率;如果patience设置得小,模型可能在前期抖动阶段就停止训练,准确率可能较差。 综上所述,通过预处理提速、IO提速、并行加载和调整patience参数等方法,可以有效解决深度学习数据加载慢的问题。 #### 引用[.reference_title] - *1* [训练技巧之数据集太多,加载太慢怎么办?](https://blog.csdn.net/weixin_45250844/article/details/109300852)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [深度学习框架_PyTorch_PyTorch数据读取加速方法](https://blog.csdn.net/Rocky6688/article/details/105317098)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [CPU深度学习训练速度过慢+keras深度学习训练常见函数解释](https://blog.csdn.net/weixin_43201920/article/details/105889691)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值