机器学习中的数据清洗和特征处理综述

最新推荐文章于 2024-07-11 14:43:09 发布

OnlyQi

最新推荐文章于 2024-07-11 14:43:09 发布

阅读量2.1k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/OnlyQi/article/details/50844826

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文参考了美团技术团队发表的《机器学习中的数据清洗和特征处理综述》，以下是学习笔记：

http://tech.meituan.com/machinelearning-data-feature-process.html

典型的监督学习过程

原文中将蓝色箭头解释为离线处理，绿色箭头解释为在线处理，我认为不好。蓝色箭头应理解为使用特征数据+标注数据经机器学习算法得出预测模型，然后将新数据输入该模型得到预测值。只不过对于美团的实际应用(如即时团购推荐)而言，绿色处理过程对实时性要求较高，所以可称其为在线处理过程。

确定特征数据

在数据来源不固定，不明了的情况下，需要考虑为了达到目标，需要哪些特征值。首先可以借鉴一些业务经验选择一些特征，然后需要对使用数据的可用性进行评估，包括数据的获取难度，数据的规模，数据的准确率，数据的覆盖率等。

特征处理过程

1，初步处理

样本采样 -- 当模型不能使用全部的数据来训练时，需要对数据进行采样，设定一定的采样率。采样的方法包括随机采样，固定比例采样等方法。

样本过滤 -- 主要是对样本中的异常点检测，以及去除作弊，spam等数据等。

2，特征分类

在分析完特征和标注的清洗方法之后，应对特征进行分类，对于不同的特征应该有不同的特征处理方法。

根据不同的分类方法，可以将特征分为(1)Low level特征和High level特征。(2)稳定特征与动态特征。(3)二值特征、连续特征、枚举特征。具体可参看原文。总的来说对于Low level特征和High level特征可能适合不同的模型；稳定特征与动态特征可以针对性地设计特征存储和更新方式；二值特征、连续特征、枚举特征则需要做特征归一化，离散化，缺省值等处理。

3，特征处理

特征处理一般有：

(1)特征归一化，离散化，缺省值

(2)特征降维

(3)特征选择

关于为什么药特征选择和降维，可以参考另外一篇文章：http://blog.csdn.net/onlyqi/article/details/50843541

文中最后用实例强调了特征监控的重要性。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

OnlyQi CSDN认证博客专家 CSDN认证企业博客

码龄14年

283: 原创

3万+: 周排名

108万+: 总排名

117万+: 访问

: 等级

1万+: 积分

69: 粉丝

94: 获赞

48: 评论

206: 收藏

私信

关注

热门文章

分类专栏

最新评论

多线程太可怕了
m0_37786387: 外包公司，大量裁员，慎入
多线程太可怕了
ChengSukai: 你解决了嘛?
Hierarchical Queries in Oracle
技术小白白~: Oracle理解很深入，看了大佬文章收获满满，平时可以多多交流，大佬可以给个WX吗？
Pandas中的groupby方法
系'辞: 【个人笔记】由作者得：dataframe.groupby().会根据所分类的值种类，分割为对应个数的dataframe，并且，仅返回dataframe格式。而，要想进一步使用，就得利用函数(“.函数名()”)、切片(“.[属性名]”)等方式处理
Python的Module和Package
Tisfy: 深得人心，正如古人云：别来几春未还家，玉窗五见樱桃花。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。