机器学习之数据清理经验

最新推荐文章于 2023-02-28 21:50:34 发布

決心

最新推荐文章于 2023-02-28 21:50:34 发布

阅读量1.2k

点赞数

分类专栏：机器学习数据挖掘数据处理文章标签：机器学习-数据清理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010910436/article/details/64133326

版权

机器学习同时被 3 个专栏收录

17 篇文章 0 订阅

订阅专栏

12 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

文本类数据，尤其二分类，如果正反比悬殊（超过1：10），反例极容易出现包含正例的噪声（人工标注准确率95%）
1.这时，首先去除反例中和正例完全相同的误分类（比如新闻，就是标题；聊天数据就是去掉不可见字符后的文本）
2.视数据质量，也可以用一些高阈值的相似性比较方法，比如杰卡德，余弦，编辑距离等，再去除一部分噪声
3.训练好的分类器，在正例分类器中，按分类器的分值进行排序，头部的“误召回”通常是准确的正例识别，只是被人工标注误分为反例
下图是一张用fasttext做的二分类，识别为“正例”的数据随阈值变化分布。横轴为归一化的分值从大到小（Max=0），纵轴为阈值不断变小，召回的”正例”中正反例的数量变化，其中出现在头部区域，即阈值取较大数值时，依然“误分”的反例，极大概率是噪声（正例），可以人工针对进行清理。
这是一张用fasttext做的二分类，识别为“正例"的数据随阈值变化分布。横轴为归一化的分值从大到小（Max=0），纵轴为阈值不断变小，召回的"正例"中正反例的数量变化
4.同时上面的分类器，可以针对正负样本，哪一种质量更高，反过来对另一个类别有一定数据倾斜（比如由1：1配平，改为1；5，1：10）进行训练，那么高质量数据的是高召回，余下的误识别减少，这种情况下依然分类到正例的，尤其是头部区域，更大概率是噪声。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。