学习时间:2023.4.8-2023.4.14
学习内容:
1.实验结果的train_score>>eval_score,发生了过拟合
2.
(1) 实验八:双卡
batch_size = 32
Num_head = 4
Embedding_dim = 512
l2_lambda= 0.01
结果:epoch11 eval_score=52发生过拟合
(2)**实验九:**实验八基础上增大正则化参数权重,减小特征维度
batch_size = 32
Num_head = 4
Embedding_dim = 256
l2_lambda= 0.05
结果:epoch10 eval_score=53.6发生过拟合
(3)实验十 双卡
batch_size = 64
Num_head = 4
Embedding_dim = 128
l2_lambda= 0.01
结果:epoch10 eval_score=54.6发生过拟合
结论:最佳batch_size = 32 | 64
Embedding_dim = 128 || 256
(4)实验十一 双卡
learning_rate=0.0005
batch_size = 32
l2_lambda = 0.01
embed_dim=128
num_heads=2
drop_rate=0.1,
attn_drop_rate=0.1
结果:目前实验进行到epoch7,eval_score=55.07未出现过拟合现象。
(5)实验十二 双卡 增大失活率
drop_rate=0.1–>0.2
attn_drop_rate=0.1–>0.2
结果:目前实验进行到epoch7,eval_score=55.11未出现过拟合现象。
(5)实验十二 双卡 增大l2_lambda
l2_lambda = 0.01–>0.05
drop_rate=0.1–>0.2
attn_drop_rate=0.1–>0.2
结果:目前实验进行到epoch6,出现过拟合现象。