2023.04.14 第40周周报

本文详细描述了作者在一系列深度学习实验中,针对训练集和验证集分数差异(过拟合)进行的探索,重点关注了batch_size、Embedding_dim、l2_lambda等参数对模型性能的影响。实验结果显示,最佳配置是batch_size为32或64,Embedding_dim为128或256,且适当增加dropout率有助于防止过拟合。
摘要由CSDN通过智能技术生成

学习时间:2023.4.8-2023.4.14
学习内容:
1.实验结果的train_score>>eval_score,发生了过拟合
2.
(1) 实验八:双卡
batch_size = 32
Num_head = 4
Embedding_dim = 512
l2_lambda= 0.01
结果:epoch11 eval_score=52发生过拟合
(2)**实验九:**实验八基础上增大正则化参数权重,减小特征维度
batch_size = 32
Num_head = 4
Embedding_dim = 256
l2_lambda= 0.05
结果:epoch10 eval_score=53.6发生过拟合
(3)实验十 双卡
batch_size = 64
Num_head = 4
Embedding_dim = 128
l2_lambda= 0.01
结果:epoch10 eval_score=54.6发生过拟合

结论:最佳batch_size = 32 | 64
Embedding_dim = 128 || 256

(4)实验十一 双卡
learning_rate=0.0005
batch_size = 32
l2_lambda = 0.01
embed_dim=128
num_heads=2
drop_rate=0.1,
attn_drop_rate=0.1
结果:目前实验进行到epoch7,eval_score=55.07未出现过拟合现象。
(5)实验十二 双卡 增大失活率
drop_rate=0.1–>0.2
attn_drop_rate=0.1–>0.2
结果:目前实验进行到epoch7,eval_score=55.11未出现过拟合现象。
(5)实验十二 双卡 增大l2_lambda
l2_lambda = 0.01–>0.05
drop_rate=0.1–>0.2
attn_drop_rate=0.1–>0.2
结果:目前实验进行到epoch6,出现过拟合现象。

  • 6
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值