机器学习中的数据清洗和特征处理综述

本文参考了美团技术团队发表的《机器学习中的数据清洗和特征处理综述》,以下是学习笔记:

http://tech.meituan.com/machinelearning-data-feature-process.html


典型的监督学习过程


原文中将蓝色箭头解释为离线处理,绿色箭头解释为在线处理,我认为不好。蓝色箭头应理解为使用特征数据+标注数据经机器学习算法得出预测模型,然后将新数据输入该模型得到预测值。只不过对于美团的实际应用(如即时团购推荐)而言,绿色处理过程对实时性要求较高,所以可称其为在线处理过程。


确定特征数据

在数据来源不固定,不明了的情况下,需要考虑为了达到目标,需要哪些特征值。首先可以借鉴一些业务经验选择一些特征,然后需要对使用数据的可用性进行评估,包括数据的获取难度,数据的规模,数据的准确率,数据的覆盖率等。


特征处理过程

1,初步处理

样本采样 -- 当模型不能使用全部的数据来训练时,需要对数据进行采样,设定一定的采样率。采样的方法包括随机采样,固定比例采样等方法。

样本过滤 -- 主要是对样本中的异常点检测,以及去除作弊,spam等数据等。


2,特征分类

在分析完特征和标注的清洗方法之后,应对特征进行分类,对于不同的特征应该有不同的特征处理方法。

根据不同的分类方法,可以将特征分为(1)Low level特征和High level特征。(2)稳定特征与动态特征。(3)二值特征、连续特征、枚举特征。具体可参看原文。总的来说对于Low level特征和High level特征可能适合不同的模型;稳定特征与动态特征可以针对性地设计特征存储和更新方式;二值特征、连续特征、枚举特征则需要做特征归一化,离散化,缺省值等处理。


3,特征处理

特征处理一般有:

(1)特征归一化,离散化,缺省值

(2)特征降维

(3)特征选择

关于为什么药特征选择和降维,可以参考另外一篇文章:http://blog.csdn.net/onlyqi/article/details/50843541


文中最后用实例强调了特征监控的重要性。



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
机器学习,有多种算法和技术可以应用于不同的数据类型和问题。以下是一些常见的机器学习技术和算法: 1. 监督学习:通过训练数据提供的标签或类别信息来训练模型,以预测新数据的标签或类别。监督学习的一些算法包括决策树、逻辑回归、支持向量机和神经网络。 2. 无监督学习:不使用标签或类别信息来训练模型,而是通过发现数据的模式和结构来进行学习。无监督学习的一些算法包括聚类、关联规则和降维。 3. 强化学习:通过与环境的交互来学习最优的行为策略。强化学习的一些算法包括Q学习和深度强化学习。 4. 深度学习:一种基于神经网络的机器学习方法,可以用于图像、语音和自然语言处理等各种任务。深度学习的一些算法包括卷积神经网络、循环神经网络和变换器。 5. 自然语言处理:一种涉及文本和语言数据的机器学习领域。自然语言处理的一些算法包括词袋模型、主题模型和序列到序列模型。 除了算法和技术之外,还有一些重要的概念和工具需要了解。例如: 1. 数据预处理:在应用任何机器学习算法之前,通常需要对原始数据进行预处理,以清洗、转换和缩放数据。 2. 特征工程:选择和提取用于训练模型的数据特征。良好的特征工程可以提高模型的准确性和泛化能力。 3. 交叉验证:将数据集分成几个部分,其一部分用于训练模型,另一部分用于验证模型的性能。通过多次交叉验证可以评估模型的稳定性和准确性。 4. 模型评估和选择:根据模型的性能指标(如准确率、召回率和F1得分)评估模型的性能,并选择最佳模型。 5. 超参数调整:调整模型的超参数以优化模型的性能。 总之,机器学习是一种广泛应用的人工智能技术,可以处理各种数据类型和问题。掌握机器学习的基础知识和技能可以帮助我们在实践解决

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值