模型训练总结

最新推荐文章于 2024-09-23 15:27:15 发布

一条水里的鱼

最新推荐文章于 2024-09-23 15:27:15 发布

阅读量1.1k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40859560/article/details/100994672

版权

传统的机器学习模型需要调节的参数：学习率，batch_size。batch_size过大可能会导致较大的泛化误差，较小模型可能不收敛

一般使用sklearn框架，采用网格搜索来调参。

深度学习模型需要调节的参数：学习率，batch_size。深度学习中，学习率往往采用动态的，先设置个热身学习率，一般非常小，然后设置成正常的，并随着迭代次数增大，学习率动态减少。batch_size选择同上

训练模型常用技巧：一边训练一边输出验证集评价得分，每次载入得分最高的模型来训练，同时降低学习率和增大batch_size。采用这种方法最开始时可先设置较大的学习率和较小的batch_size（检查模型时，采用较大的batch_size可以快速试跑模型）

遇到的一些疑惑：训练bert-bilstm-crf模型做ner任务时，训练集的和验证集的loss一直在下降，但是训练集和验证集的f1score出现先上升后下降。猜测的原因：后面f1score（非O标签）下降，是因为出现了过拟合。过拟合导致更多的标签都给了O标签，换句话说模型倾向于预测O标签，因为O标签数量是其他标签总和的几倍，这样也能解释训练集和验证集loss会一直降低。所以f1score下降是因为非O标签的精确率和召回率由于模型更倾向于预测O标签，而使非O标签的F1score下降。

模型初始化：

有人用normal初始化cnn的参数，最后acc只能到70%多，仅仅改成xavier，acc可以到98%。

一条水里的鱼

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

一条水里的鱼 CSDN认证博客专家 CSDN认证企业博客

码龄7年

105: 原创

2589: 周排名

1万+: 总排名

29万+: 访问

: 等级

2409: 积分

1万+: 粉丝

380: 获赞

54: 评论

995: 收藏

私信

关注

分类专栏

最新评论

mac 重装java
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加除了各种控件外，文章正文的字数。
JDK的下载、安装和配置
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)增加除了各种控件外，文章正文的字数；(3)提升标题与正文的相关性。
IDEA如何配置 Gradle（详细版）
C99C89: 是的，这文章真的参差不齐，都不知道博主自己测了没
大模型推理性能优化之KV Cache解读
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/618473253。
大模型推理性能优化之KV Cache解读
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/618473356。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。