模型微调
目标领域的数据较少,例如在语音识别领域,可以通过source data来训练一个模型,然后使用target data的数据进行参数微调。
需要注意target data很少,容易过拟合
conservative training
用source data训练的模型参数来初始化target data的模型,然后用target data的数据进行微调(GD的时候只更新几个epoch),但是由于target data的数据比较少,就很容易发生过拟合的问题。
有一些措施来避免这些问题:1.令两个模型的输出比较接近
2.用target data的模型参数做正则化,令两个模型的参数比较接近
3.在训练时进行一些限制,如在参数微调时,只微调某些参数(如下)
有一个问题:应该调哪些参数呢?
语音方面:往往只调第一层的参数(或者是比较接近input的layer的参数。为啥:不同人说话有所不同,但当神经网络将其进行初步解析之后,后面的识别应该大致相同,故通常的做法时只调节靠近input层的参数)
影像方面:往往固定靠近input的layer的参数,调节后面的参数(因为在影响方面前几层侦测的往往是比较基本的特征,如线条或简单图案等,这些基本的几何特征对于不同的task可以是通用的,所以一般在影像方面通常固定前几层,只微调后面测参数)
一个例子: