01_特征工程前奏—数据准备

一、需要哪些数据

1.1 收集数据规则

在进行机器学习之前,收集数据的过程中,我们主要按照以下规则找出我们所需要的数据:

1.业务的实现需要哪些数据?

  • 基于对业务规则的理解,尽可能多的找出对因变量有影响的所有自变量数据。

2.数据可用性评估

  • 在获取数据的过程中,首先需要考虑的是这个数据获取的成本
  • 获取得到的数据,在使用之前,需要考虑一下这个数据是否覆盖了所有情况以及这个数据的可信度情况。

1.2 公司数据源

一般公司内部做机器学习的数据源:

  • 用户行为日志数据:记录的用户在系统上所有操作所留下来的日志行为数据
  • 业务数据:商品/物品的信息、用户/会员的信息…
  • 第三方数据:爬虫数据、购买的数据、合作方的数据…

二、数据如何存储

一般情况下,用于后期模型创建的数据都是存在在本地磁盘、关系型数据库或者一些相关的分布式数据存储平台的。

  • 本地磁盘
  • MySQL
  • Oracle
  • HBase
  • HDFS
  • Hive

三、数据清洗

数据清洗(data cleaning)是在机器学习过程中一个不可缺少的环节,其数据的清洗结果直接关系到模型效果以及最终的结论。在实际的工作中,数据清洗通常占开发过程的30%-50%左右的时间。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

少云清

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值