实战 迁移学习 VGG19、ResNet50、InceptionV3 实践 猫狗大战 问题
一、实践流程
1、数据预处理
主要是对训练数据进行随机偏移、转动等变换图像处理,这样可以尽可能让训练数据多样化
另外处理数据方式采用分批无序读取的形式,避免了数据按目录排序训练
-
#数据准备
-
def DataGen(self, dir_path, img_row, img_col, batch_size, is_train):
-
if is_train:
-
datagen = ImageDataGenerator(rescale= 1./255,
-
zoom_range= 0.25, rotation_range=15.,
-
channel_shift_range= 25., width_shift_range=0.02, height_shift_range=0.02,
-
horizontal_flip= True, fill_mode='constant')
-
else:
-
datagen = ImageDataGenerator(rescale= 1./255)
-
-
generator = datagen.flow_from_directory(
-
dir_path, target_size=(img_row, img_col),
-
batch_size=batch_size,
-
shuffle=is_train)
-
-
return generator
2、载入现有模型
这个部分是核心工作,目的是使用ImageNet训练出的权重来做我们的特征提取器,注意这里后面的分类层去掉
-
base_model = InceptionV3(weights= 'imagenet', include_top=False, pooling=None,
-
input_shape=(img_rows, img_cols, color),
-
classes=nb_classes)
然后是冻结这些层,因为是训练好的
-
for layer in base_model.layers:
-
layer.trainable = False
-
x = base_model.output
-
# 添加自己的全链接分类层
-
x = GlobalAveragePooling2D()(x)
-
x = Dense( 1024, activation='relu')(x)
-
predictions = Dense(nb_classes, activation= 'softmax')(x)
-
x = base_model.output
-
#添加自己的全链接分类层
-
x = Flatten()(x)
-
predictions = Dense(nb_classes, activation= 'softmax')(x)
3、训练模型
这里我们用fit_generator函数,它可以避免了一次性加载大量的数据,并且生成器与模型将并行执行以提高效率。比如可以在CPU上进行实时的数据提升,同时在GPU上进行模型训练
-
history_ft = model.fit_generator(
-
train_generator,
-
steps_per_epoch=steps_per_epoch,
-
epochs=epochs,
-
validation_data=validation_generator,
-
validation_steps=validation_steps)
二、猫狗大战数据集
训练数据540M,测试数据270M,大家可以去官网下载
https://www.kaggle.com/c/dogs-vs-cats-redux-kernels-edition/data
下载后把数据分成dog和cat两个目录来存放