模型训练总结

传统的机器学习模型需要调节的参数:学习率,batch_size。batch_size过大可能会导致较大的泛化误差,较小模型可能不收敛

一般使用sklearn框架,采用网格搜索来调参。

深度学习模型需要调节的参数:学习率,batch_size。深度学习中,学习率往往采用动态的,先设置个热身学习率,一般非常小,然后设置成正常的,并随着迭代次数增大,学习率动态减少。batch_size选择同上

训练模型常用技巧:一边训练一边输出验证集评价得分,每次载入得分最高的模型来训练,同时降低学习率和增大batch_size。采用这种方法最开始时可先设置较大的学习率和较小的batch_size(检查模型时,采用较大的batch_size可以快速试跑模型)

遇到的一些疑惑:训练bert-bilstm-crf模型做ner任务时,训练集的和验证集的loss一直在下降,但是训练集和验证集的f1score出现先上升后下降。猜测的原因:后面f1score(非O标签)下降,是因为出现了过拟合。过拟合导致更多的标签都给了O标签,换句话说模型倾向于预测O标签,因为O标签数量是其他标签总和的几倍,这样也能解释训练集和验证集loss会一直降低。所以f1score下降是因为非O标签的精确率和召回率由于模型更倾向于预测O标签,而使非O标签的F1score下降。

模型初始化:

有人用normal初始化cnn的参数,最后acc只能到70%多,仅仅改成xavier,acc可以到98%。

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值