为什么要使用model.fit_generator?
- 在现实的机器学习中,训练一个model往往需要数量巨大的数据,如果使用fit进行数据训练,很有可能导致内存不够,无法进行训练。
- fit_generator的定义如下:
fit_generator(generator, steps_per_epoch=None, epochs=1, verbose=1, callbacks=None, validation_data=None, validation_steps=None, class_weight=None, max_queue_size=10, workers=1, use_multiprocessing=False, shuffle=True, initial_epoch=0)
其中各项的具体解释,请参考Keras中文文档
- 我们重点关注的是generator参数:
generator: 一个生成器,或者一个 Sequence (keras.utils.Sequence) 对象的实例, 以在使用多进程时避免数据的重复。 生成器的输出应该为以下之一:
一个 (inputs, targets) 元组
一个 (inputs, targets, sample_weights) 元组。
那么,问题来了,如何构建这个generator呢?有以下几种办法:
- 自己创建一个generator生成器
- 自己定义一个 Sequence (keras.utils.Sequence) 对象
- 使用Keras自带的
ImageDataGenerator
和.flow/.flow_from_dataframe/.flow_from_directory
来生成一个generator
1.自己创建一个generator生成器
使用Keras自带的ImageDataGenerator
和.flow/.flow_from_dataframe/.flow_from_directory
灵活度不高,只有当数据集满足一定格式(例如,按照分类文件夹存放)或者具备一定条件时,使用才使用才较为方便。
此时,自己创建一个generator就很重要了,关于python的generator是什么原理,怎么使用,就不加赘述,可以查看python的基本语法。
此处,我们用yield
来返回数据组,标签组
,从而使fit_generator可以调用我们的generator来成批处理数据。
具体实现如下:
def myGenerator(batch_size):
# loading data
X_train,Y_train=load_data(...)
# data processing
# ................
total_size=X_train.size
#batch_size means how many data you want to train one step
while 1:
for i in range(total_size//batch_size):
yield x_train[i*batch_size:(i+1)*batch_size], y[i*batch_size:(i+1)*batch_size]
return myGenerator
接着你可以调用该生成器:
self._model.fit_generator(myGenerator(batch_size),steps_per_epoch=total_size//batch_size, epochs=epoch_num)