AllenNLP训练模型需要注意的一些东西

最新推荐文章于 2021-03-13 11:01:26 发布

街道口扛把子

最新推荐文章于 2021-03-13 11:01:26 发布

阅读量215

点赞数

分类专栏： allennlp 文章标签： AllenNLP 深度学习 NLP

本文链接：https://blog.csdn.net/m0_38133212/article/details/88581754

版权

allennlp 专栏收录该内容

23 篇文章 10 订阅

订阅专栏

加载预训练模型

所有参数

{"model":
    "initializer": [
          	[
          	  "*.weight|*.bias",
    		      {
    		          "type": "pretrained",
    		          "weights_file_path": "./best.th"
    		        }
            ]
        ]
    }

部分参数

一部分可以设置随机初始化，另一部分用预训练的
（应该可以把预训练放到前面，对所有设置预训练，然后把需要随机初始化的放到后面）

[".*linear_layers.*weight", {"type": "xavier_normal"} ] ,
[
"linear_1.weight|linear_2.weight",
 # linear_1和linear_2使用预训练模型参数  # 正则表达式 linear_1.*  # linear_1.weight|linear_1.bias
    {
	  "type": "pretrained",
	  "weights_file_path": "temp_file",
	 "parameter_name_overrides": "linear_2.weight": "linear_3.weight" 
	 # 其中linear_2用linear_3的进行初始化，但lay大小要一致
    }
]

寻找合适的初始学习率

find_learning_rate：注意fine-tuning之前试着找一个合适的初始学习率。

模型训练后期

注意到调低学习率之后，训练很慢，主要是最后一层权值有更新。
TODO：冻结前面的层，训练最后一层。（先进行dry-run，获得所有layer的名字）
TODO：

{"trainer":
  {
  	"no_grad":
	[[".*text_field_embedder.*"],
	 [".*text_field_embedder.*", ".*encoder.*"]]
	}
}

街道口扛把子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AllenNLP训练模型需要注意的一些东西

加载预训练模型所有参数{"model": "initializer": [ [ "*.weight|*.bias", { "type": "pretrained", "weights_file_path": "./best.th&qu
复制链接

扫一扫

专栏目录