nlp正样本太多_如何修正NLP问题的bad case

68a3607b39cb4cf3a350c212f6880730.png

NLP问题,大都至少是个统计类问题,对整个数据集进行分析,然后给出概率最大的结果,无论是基于概率的浅层学习,还是使用了深度学习都是如此,而少了可供添加和修改的特征,此时如果出现比较关键的bad case,就并不好干预,而且在干预的同时还需要考虑尽可能不产生新的bad case,这样一来,要处理这些bad case就非常头疼,这里我给大家介绍一些处理bad case经验。

主要思路

这应该是一个比较普适的处理问题的方法,确认目标,剖析问题,处理问题,检验结果。

  • 首先,要分析这bad case,知道bad case产生的原因,只有知道病因才能对症下药。

  • 确定这个case是否需要解决,即评估这个case的影响面,有多少相似的case存在,解决后收益有多大,毕竟我们需要把资源花在最有收益的地方。

  • 提出解决方案并进行试验。

  • 校验case是否解决,解决程度如何(其实有时候能解决一个问题的80%已经很不错了,不见得要完全搞定)

  • 校验,这个解决方案有没有引入新的问题(一般要做回归测试)。

问题诊断

要处理bad case,首先是要知道bad case是怎么产生的,为什么会有这些问题,一般地,主要是下面这些原因。

数据标注就有问题。这点其实在现实应用下就很常见,本身标注样本就不太可能天衣无缝,而且其中还存在大量人类自己都很难说清楚的case,例如现在的“快乐”真的就是“快乐”吗,“快乐风男”对于队友来说可就不一定是快乐了吧,em,从这个例子对于没打过英雄联盟的人来说,根本不知打我讲啥对吧,这就对了

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值