特征工程(2)--数据采集、数据清洗、数据采样

本文介绍了特征工程中的关键步骤——数据采集、数据清洗和数据采样。在数据采集阶段,以预测用户下单情况为例,强调了需要收集的商品、店铺和用户信息。数据清洗过程中,通过简单属性和组合属性判定来识别并去除脏数据。数据采样时,由于正负样本不平衡,提出了随机采样和分层抽样的方法,其中分层抽样更适用于保持数据分布的均衡性。
摘要由CSDN通过智能技术生成

一、数据采集:数据采集前需要明确采集哪些数据,一般的思路为:哪些数据对最后的结果预测有帮助?数据我们能够采集到吗?线上实时计算的时候获取是否快捷?    

举例1:我现在要预测用户对商品的下单情况,或者我要给用户做商品推荐,那我需要采集什么信息呢?     

-店家:店铺的评分、店铺类别……    

-商品:商品评分、购买人数、颜色、材质、领子形状……    

-用户:历史信息(购买商品的最低价最高价)、消费能力、商品停留时间……    


二、数据清洗: 数据清洗也是很重要的一步,机器学习算法大多数时候就是一个加工机器,至于最后的产品如何࿰

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值