NLP项目如何提升效果？

kmlin4

已于 2023-05-25 15:35:04 修改

阅读量477

点赞数 8

文章标签：自然语言处理深度学习人工智能

于 2023-05-25 15:19:41 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kmlin4/article/details/130867071

版权

文章探讨了模型架构设计的关键点，包括从特征抽取的角度选择网络结构，保证训练收敛的技巧，如使用Batchnorm和残差连接，以及如何通过Dropout提升泛化能力。针对模型在训练样本上的高偏差和验证集上的高方差问题，提出了增加模型复杂度、分析数据属性和引入正则化机制的解决方案。同时，提到了使用对抗网络提高鲁棒性和结合主动学习、强化学习进一步优化模型的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

1.模型的架构设计

1.1.从特征抽取角度进行设计

1.2.保证训练能够收敛的设计

1.3.保证泛化能力的设计

1.4.验证架构是否达到预期

2.模型在训练样本表现不佳（高偏差）

3.模型在验证集上表现不好（高方差）

1.模型的架构设计

1.1.从特征抽取角度进行设计

（1）通过probe探针，了解各种网络结构（CNN/LSTM）捕获到的语言学特征
（2）从预测任务、语料，找到需要哪些语言学特征
（3）基于（1）（2）选用合适的网络架构
（4）利用layer层叠
①扩大特征覆盖的输入token范围
②实现特征间的组合

1.2.保证训练能够收敛的设计

Batchnorm/layernorm
残差连接
RELU激活函数

1.3.保证泛化能力的设计

Dropout

1.4.验证架构是否达到预期

(1)使用probe探针验证语言学特征是否学习到。

2.模型在训练样本表现不佳（高偏差）

（1）查看LOSS曲线，确保模型收敛；

（2）提升模型复杂度，看看能否达到低偏差、低方差的理想状态

（3）将badcase集合与goodcase集合进行比较，或者与人脑对badcase的理想处理流程进行比较；寻找他们在哪些属性的统计分布上存在差异。那么这些属性，就可能是导致badcase的原因。属性包括：

a) 标注是否正确

b) 与其他样本的距离（数据稀疏问题：badcase距离其他训练样本很远；考虑是否可以通过主动学习、数据增强的方式，构建类似数据，解决数据稀疏问题）

c) 对badcase样本的预测，有重要影响的样本子集的属性分布

d) 各Token对预测结果的影响度是否符合预期（即：热力图）

3.模型在验证集上表现不好（高方差）

引入dropout等正则化机制

4.鲁棒性

使用GAN对抗网络，发现模型处理不好的样本，提升模型效果。

引入dropout等正则化机制

5.其他思路

基于主动学习，补充语料
采用强化学习的方法进行模型训练，类似RLHF

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。