2023.04.14 第40周周报

NCUZhangchen

已于 2024-04-21 09:12:36 修改

阅读量194

点赞数 6

文章标签： python

于 2024-04-14 09:45:24 首次发布

本文链接：https://blog.csdn.net/qq_48823102/article/details/137735479

版权

本文详细描述了作者在一系列深度学习实验中，针对训练集和验证集分数差异（过拟合）进行的探索，重点关注了batch_size、Embedding_dim、l2_lambda等参数对模型性能的影响。实验结果显示，最佳配置是batch_size为32或64，Embedding_dim为128或256，且适当增加dropout率有助于防止过拟合。

摘要由CSDN通过智能技术生成

学习时间：2023.4.8-2023.4.14
学习内容：
1.实验结果的train_score>>eval_score，发生了过拟合
2.
(1) 实验八：双卡
batch_size = 32
Num_head = 4
Embedding_dim = 512
l2_lambda= 0.01
结果：epoch11 eval_score=52发生过拟合
（2）**实验九：**实验八基础上增大正则化参数权重，减小特征维度
batch_size = 32
Num_head = 4
Embedding_dim = 256
l2_lambda= 0.05
结果：epoch10 eval_score=53.6发生过拟合
（3）实验十双卡
batch_size = 64
Num_head = 4
Embedding_dim = 128
l2_lambda= 0.01
结果：epoch10 eval_score=54.6发生过拟合

结论：最佳batch_size = 32 | 64
Embedding_dim = 128 || 256

（4）实验十一双卡
learning_rate=0.0005
batch_size = 32
l2_lambda = 0.01
embed_dim=128
num_heads=2
drop_rate=0.1,
attn_drop_rate=0.1
结果：目前实验进行到epoch7，eval_score=55.07未出现过拟合现象。
（5）实验十二双卡 增大失活率
drop_rate=0.1–>0.2
attn_drop_rate=0.1–>0.2
结果：目前实验进行到epoch7，eval_score=55.11未出现过拟合现象。
（5）实验十二双卡 增大l2_lambda
l2_lambda = 0.01–>0.05
drop_rate=0.1–>0.2
attn_drop_rate=0.1–>0.2
结果：目前实验进行到epoch6，出现过拟合现象。

NCUZhangchen

关注

6
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
2023.04.14 第40周周报

结果：目前实验进行到epoch7，eval_score=55.07未出现过拟合现象。结果：目前实验进行到epoch7，eval_score=55.11未出现过拟合现象。1.实验结果的train_score>>eval_score，发生了过拟合。结果：epoch10 eval_score=53.6发生过拟合。结果：epoch10 eval_score=54.6发生过拟合。结果：epoch11 eval_score=52发生过拟合。结果：目前实验进行到epoch6，出现过拟合现象。增大l2_lambda。
复制链接

扫一扫