Fine tune using tf.estimator with distribution strategy

  最近训练模型时遇到一些问题,记载下来以备以后可以查看。在使用tensorflow的接口estimator遇到一些问题,官方的api也不是很具体,因此通过搜索与查看源码,一步步熟悉其操作与原理,并解决了问题。

      tf.estimator是专为分布式设计的,其中包含很多分布式策略。包含如下参数:

1、model_fn,该函数的输入包含feature、label、config、mode一些参数设置等,对于train、eval、predict过程,主要通过mode参数区分,主要定义模型的运行过程。

2、Model_dir,模型存储的目录

3、config一些配置设置,如采用分布式策略

4、params一些参数设置

5、warm_start_from 从已保存的checkpoint加载

      Estimator有一些很巧妙的实现,比如对一些保存checkpoint、打印日志操作等都是通过hook实现,如sessionRunhook,详见https://www.tensorflow.org/api_docs/python/tf/train/SessionRunHook,可以通过继承sessionRunhook实现一些会话内的操作。Estimator会根据设置的是否分布式策略执行不同的训练过程,其中分布策略主要通过tf.train.MonitorSession实现。

      模型训练过程中,往往通过加载之前模型的参数,对原有模型或进行finetune或改变图的结构,而我在训练模型中修改了优化器部分,对于优化,estimator通过CheckpointSaverHook每隔一段时间进行checkpoint存储,为了能够断点训练,也存储了如adam类似优化器的参数,而adam中本身包含两个变量,如m,v等参数,具体可见之前的博客https://blog.csdn.net/u013453936/article/details/79088291等,它在checkpoint中存储的名称默认为Adam,那么m和v两个变量就会变成Adam,Adam1默认命名,如果使用adagrad,那变量名将会改成Adagrad默认命名等。或者添加一些网络层。由于estimator CheckpointSaverHook源码见于tensorflow/python/training/basic_session_run_hooks.py中,默认会加载model_dir中的checkpoint,如swats,详见https://github.com/summersunshine1/optimize/blob/master/adadelta.py优化算法,它的变量不止两个,而加载模型过程中即使swats命名改为Adam,那可能会出现Adam_2,Adam_3参数,于是便会报not found Adam_2等错误。难道不可以直接加载旧的模型的部分参数到新的模型,这样就可以修改旧有模型,同时复用旧有模型参数。在以前的类似finetune过程中,直接通过调用tf.train.saver即可实现,那estimator中如何实现。

      我尝试了四种方法,其中两种方法在多卡环境下不适用,另一种会出现很奇怪的bug,最后一种终于解决了该问题。

     首先,查看estimator的接口中有一个warm_start_from,warm_start_from这个参数用于从旧的模型中加载参数。采用warm_start_from时,会出现"TypeError: var MUST be one of the following: a Variable, list of Variable or PartitionedVariable, but is <class 'tensorflow.contrib.distribute.python.values.MirroredVariable'>”error,根据该参数,由于出现MirroredVariable error,当多卡环境时,主要采用mirroredstrategy,将镜像变量分布于多个设备中,因此可以判定为是多卡出现的错误。可是,多卡问题必须要解决,毕竟一般都在多卡上跑。不甘心,于是采用warm_start_from的另一种形式参数,tf.estimator.WarmStartSettings(ckpt_to_initialize_from=model_dir ,vars_to_warm_start = '^(?!.*(Adam))'),该函数可以通过一些参数匹配只恢复部分参数,还是同样的错误。

       通过查找,发现init_from_checkpoint一般用于finetune,因此尝试调用tf.train.init_from_checkpoint(),,同样的错误再次出现。

       搜索过后,发现了一种解决方案,在model_fn中返回的tf.estimator.EstimatorSpec中有一个参数scaffold,scaffold定义整个模型需要做的准备,如初始化参数,保存点等。将其输入到tf.estimator.EstimatorSpec的参数中,不知什么原因,代码和错误如下:

  for var in tf.trainable_variables():
      if not 'Adam' in var.name:
       var_to_restore.append(var)
  checkpoint_state = tf.train.get_checkpoint_state(params["model_dir"])
  input_checkpoint = checkpoint_state.model_checkpoint_path
  pretrain_saver = tf.train.Saver(var_to_restore)  
  def init_fun(scaffold, session):
    pretrain_saver.restore(session, input_checkpoint)
  sca = tf.train.Scaffold(init_fn = init_fun)


  于是进一步搜索estimator如何finetune,发现这是一个多卡的bug,在github上刚被提出,见https://github.com/tensorflow/tensorflow/issues/19958,绝望透顶。

       另一个issue中https://github.com/tensorflow/tensorflow/issues/10155,看到mixuala 回复使用hooks可以实现模型参数的加载。该hook主要继承自sessionrunhook,可以在session创建后进行模型的恢复,该方法最终解决了我的问题。我也在https://github.com/tensorflow/tensorflow/issues/19958,进行了回复。该方法只是绕路解决了问题,真的很希望tensorflow能够解决该多设备问题。

      通过不断尝试,逐渐熟悉estimator的使用,以及解决了问题,官方的文档很简略,没有详细说明其使用例子,这是我想吐槽的,不过tensorflow的设计真的很巧妙。


  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值