1. ImageNet数据集与ILSVRC之间的关系是什么?
ImageNet Large Scale Visual Recognition Challenge(ILSVRC),从2010年开始,每年举办的ImageNet大规模视觉识别挑战赛,到2017年后截止。比赛项目包括:图像分类(Classification)、目标定位(Object localization)、目标检测(Object detection)、视频目标检测(Object detection from video)、场景分类(Scene classification)、场景解析(Scene parsing)。ILSVRC中使用到的数据仅是ImageNet数据集中的一部分。
2. AlexNet训练过程的数据增强中,针对位置,采用什么方法将一张图片有可能变为2048张不一样的图片(1个像素值不一样,也叫不一样)?
原图像是256256,我们从中抽取224224的部分,如此一张图片产生32*32=1024张图片。然后进行水平翻转变换,一张图片总计产生2048张图片。
3. AlexNet使用的Dropout,在使用过程中需要注意什么?
将失活的概率设置为0.5,但是在测试阶段,要将所有的神经元输出乘以0.5,对指数级的许多失活网络的预测分布进行几何平均。
将输入通过修改后的网络进行前向传播,然后将误差通过修改后的网络进行反向传播。
4. 读完该论文,对你的启发点有哪些?
可用Alexnet提取高级特征进行图像检索,图像聚类,图像编码。
5. 代码实践:在猫狗数据集上,对比采用预训练模型和不采用预训练模型这两种情况,训练曲线有何差异,截图打卡。
1.采用预训练模型,训练曲线如下:
path_state_dict = os.path.join(BASE_DIR, "..", "data", "alexnet-owt-4df8aa71.pth")
2.不采用预训练模型,训练曲线如下:
alexnet_model = models.alexnet(pretrained=False)