数据集结构,这里简单得说一下train,val,test文件结构:
train:
1,000个tar文件,包含1,281,167张片,每个tar文件下为1,300张图片
val:
50,000张图片
test:
100,000张图片
首先是文件解压,从图像结构上看也就是训练集需要再次解压,至于验证集以及测试集都是解压好后为图片得格式。但是由于再训练集中tar文件个数为1,000个因此解压只能通过终端shell来写代码解决,shell代码我是没接触过,但是找了一些资料写了一段(亲测有效):
save_dir='your save dir'
for i in $(ls *.tar);
do
mkdir ${i:0:-4};
file_dir=$save_dir"/"${i:0:-4}; # creat folder for each tar
echo $file_dir;
tar -xvf $i -C $file_dir; # Extract the files to the specified path
done
这样就可以解决了,至于读取train文件可以采用pytorch的imagefold函数就可以了。
对于验证文件网上也是有一些资料介绍这里给出一个别人写好的脚本链接按照提示操作就可以了:https://github.com/huaifeng1993/ILSVRC2012
测试集我还没用上呢,不了解,后续找到相关介绍再加进来。