项目场景:
使用 torch.utils.data.DataLoader类加载数据时,出现报错。
问题描述
使用 torch.utils.data.DataLoader类加载数据时,出现报错:
import torch.utils.data as Data
# 定义个数据加载器,将训练数据集进行批量处理
train_loader = Data.DataLoader(
dataset=train_data,
batch_size=64,
shuffle=True,
num_workers=4, # 0为单线程,1为两个进程
)
RuntimeError: DataLoader worker (pid(s) 8032, 6100, 3156, 4912) exited unexpectedly
原因分析:
我的代码中,num_workers = 4,启用了多进程。
from sklearn.datasets import load_boston, load_iris
import torch
import torch.utils.data as Data
import numpy as np
# 读取波士顿数据
boston_X, boston_y = load_boston(return_X_y=True) # 64位浮点型
# 转换为32位浮点型
train_xt = torch.from_numpy(boston_X.astype(np.float32))
train_yt = torch.from_numpy(boston_y.astype(np.float32))
# 使用TensorDataset将X和Y整理到一起
train_data = Data.TensorDataset(train_xt, train_yt)
# 定义个数据加载器,将训练数据集进行批量处理
train_loader = Data.DataLoader(
dataset=train_data,
batch_size=64,
shuffle=True,
num_workers=4, # 0为单线程,1为两个进程
)
for step, (b_x, b_y) in enumerate(train_loader):
print()
if step > 1:
break
Python中多进程(multiprocessing这个模块包)的内容必须放在if name == 'main’之内才可以。多线程(threading这个模块包)是没有这项限定的。
所以,如果使用多进程,请务必放在if name == 'main’内。
解决方案:
改成以下内容即解决问题:
python
from sklearn.datasets import load_boston, load_iris
import torch
import torch.utils.data as Data
import numpy as np
if __name__ == '__main__':
# 读取波士顿数据
boston_X, boston_y = load_boston(return_X_y=True) # 64位浮点型
# 转换为32位浮点型
train_xt = torch.from_numpy(boston_X.astype(np.float32))
train_yt = torch.from_numpy(boston_y.astype(np.float32))
# 使用TensorDataset将X和Y整理到一起
train_data = Data.TensorDataset(train_xt, train_yt)
# 定义个数据加载器,将训练数据集进行批量处理
train_loader = Data.DataLoader(
dataset=train_data,
batch_size=64,
shuffle=True,
num_workers=4, # 0为单线程,1为两个进程
)
for step, (b_x, b_y) in enumerate(train_loader):
print()
if step > 1:
break