利用Dataset类使用超过内存大小的训练集进行训练神经网络
如何利用容量大于内存的数据集训练神经网络在训练神经网络的时候,我们常常会遇到训练集大于RAM的情况。如果直接暴力读取会出现MemoryError,那这个时候我们应该怎么办呢?在实验中,笔者欲利用TCGA数据库中PANCANCE的dnam数据进行训练神经网络。但是,处理完的dnam数据集大约60G,这显然超出了PC的运存(当然,如果有实验室提供的服务器就另说了)。笔者使用PyTorch框架中的Dataset类解决次问题,特此记录一下该粗糙的解决方案。笔者使用的深度学习框架为PyTorch1.7.1。










