pytorch 加载大数据集 内存不够 的处理方式
文章用于记录一下本人对于较大数据集加载的问题的一些解决办法和思考。(比较口水话)我之前训练某个特定任务,习惯于把数据提前预处理为dataset保存起来【参见这里】,然后每次训练的时候直接加载这个文件。我这样做的目的是,方便调代码,使用很小量的数据先把代码调通,当出现一些小问题时不至于数据处理很久。但是最近在使用自己的一些语料微调一个语言模型, 语料纯文本大小大概在8G左右,使用预处理脚本CPU满速处理后使用torch.save()保存成二进制文件,大概也8G左右。这个时候问题来了,我使用了8张卡跑代码




