nlp学习摘录

Lorry Fan

已于 2024-03-31 15:17:23 修改

阅读量2.1k

点赞数

分类专栏：机器学习文章标签：深度学习机器学习神经网络人工智能自然语言处理

于 2022-01-25 14:25:25 首次发布

本文链接：https://blog.csdn.net/mossfan/article/details/122684560

版权

机器学习专栏收录该内容

7 篇文章

订阅专栏

摘录一

1.单模调优：

基于PaddleNLP通过预训练模型roberta-wwm-ext-large的微调及基本调参达到单模最高分数为89.22236。

确定的较优模型参数为：batch_size = 300，max_seq_length = 48，epochs = 4，seed = 1024；优化器上选择AdamW优化器，learning_rate = 4e-5，weight_decay = 0.0

期间也尝试过使用不同的预训练模型，模型效果上：roberta-wwm-ext-large > nezha-large-wwm-chinese > skep_ernie_1.0_large_ch

对三个不同的最优模型预测结果根据分数排名，采用4：3：2的加权融合后可以达到89.37308的融合分数。

在训练时发现训练轮次过多时，会存在过拟合的风险降低模型的泛化能力。具体表现为：训练5个epoch甚至更多后验证集上分数上涨了但提交分数却下降明显。故训练epoch只选择了4个。

2.伪标签和模型融合

伪标签方法主要是将模型对无标签的测试数据的预测结果加入到训练中去从而增大训练数据量提升模型效果，适用于模型精度较高的情况。考虑到单模型准确度0.89+还算较高故采用了该技巧。

具体实现上主要是采用了roberta-wwm-ext-large、nezha-large-wwm-chinese和skep_ernie_1.0_large_ch三个模型，并取三者预测全部相同的结果label出来然后与测试集的正文内容拼接后处理为newtest.csv文件（格式为text_a,label）后加入到训练集中去。

通过将第一轮伪标签法得到的数据加入到roberta-wwm-ext-large的微调训练中后达到89.76304的分数，相较初始单模89.22，提升较大！

接着继续训练不同的预训练模型：roberta-wwm-ext-large 89.76304，nezha-large-wwm-chinese 89.65538，skep_ernie_1.0_large_ch 89.56088。通过加权投票融合后达到89.88146。接着继续通过取三者预测全部相同的结果label出来然后与测试集的正文内容拼接后处理为newtest1.csv文件（格式为text_a,label）后加入到训练集中去。

通过第二轮伪标签，roberta-wwm-ext-large达到89.85634，nezha-large-wwm-chinese达到89.82404，skep_ernie_1.0_large_ch达到89.73792。对第二轮得到的融合结果（89.88146)、roberta-wwm-ext-large结果（89.85634）及nezha-large-wwm-chinese（89.82404）按4：3：2的加权投票融合法后得到9月第一名分数89.95921。

在10月新一轮中开始尝试使用第三和第四轮伪标签，分别得到newtest2.csv和newtest3.csv的伪标签数据。通过第三和第四轮伪标签，roberta-wwm-ext-large最高达到89.98074，nezha-large-wwm-chinese最高达到89.95682，进行简单加权投票融合后达到目前最高的分数90.04414。

经测试伪标签和模型融合trick在第一和二轮时效果提升较优，但轮数增多后提升开始变得微弱些。