【NLP复习】如何解决过拟合?

一、过拟合的原因

  • 主要原因是训练数据中存在噪音或者训练数据太少,或训练集和测试集特征分布不一致
  • 根本的原因则是特征维度(或参数)过多,导致模型完美拟合训练集,对新数据的预测结果较差

二、如何解决过拟合

  • simpler model structure:减小模型复杂度(缩小宽度和减小深度)
  • data augmentation:随机drop和shuffle、同义词替换、回译、文档裁剪......
  • regularization:L0范数是指向量中非0的元素的个数,L1范数是指向量中各个元素绝对值之和,也叫“稀疏规则算子”(Lasso regularization)但常用的为L1?因为L0范数很难优化求解(NP难问题),二是L1范数是L0范数的最优凸近似,而且它比L0范数要容易优化求解。(筛掉稀疏的特征)

  • dropout:

  • early stopping:在模型对训练数据集迭代收敛之前停止迭代(连续10次Epoch(或者更多次)没达到最佳accuracy时,则可以认为accuracy不再提高了。此时便可以停止迭代了(Early Stopping)。这种策略也称为“No-improvement-in-n”,n即Epoch的次数,可以根据实际情况取,如10、20、30……)
  • ensemble:Bagging通过平均多个模型的结果,来降低模型的方差。Boosting减小偏差。
  • 重新清洗数据:检查数据一致性,处理无效值和缺失值等。

 

【参考资料】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值