机器学习之数据清理经验

文本类数据,尤其二分类,如果正反比悬殊(超过1:10),反例极容易出现包含正例的噪声(人工标注准确率95%)
1.这时,首先去除反例中和正例完全相同的误分类(比如新闻,就是标题;聊天数据就是去掉不可见字符后的文本)
2.视数据质量,也可以用一些高阈值的相似性比较方法,比如杰卡德,余弦,编辑距离等,再去除一部分噪声
3.训练好的分类器,在正例分类器中,按分类器的分值进行排序,头部的“误召回”通常是准确的正例识别,只是被人工标注误分为反例
下图是一张用fasttext做的二分类,识别为“正例”的数据随阈值变化分布。横轴为归一化的分值从大到小(Max=0),纵轴为阈值不断变小,召回的”正例”中正反例的数量变化,其中出现在头部区域,即阈值取较大数值时,依然“误分”的反例,极大概率是噪声(正例),可以人工针对进行清理。
这是一张用fasttext做的二分类,识别为“正例"的数据随阈值变化分布。横轴为归一化的分值从大到小(Max=0),纵轴为阈值不断变小,召回的"正例"中正反例的数量变化
4.同时上面的分类器,可以针对正负样本,哪一种质量更高,反过来对另一个类别有一定数据倾斜(比如由1:1配平,改为1;5,1:10)进行训练,那么高质量数据的是高召回,余下的误识别减少,这种情况下依然分类到正例的,尤其是头部区域,更大概率是噪声。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值