数据理解和预处理

本文探讨了数据理解的关键步骤,包括关注业务目标、了解数据的行列数、数据单位、研究群体以及变量间的关联。同时,提到了如何处理分类变量、数值变量,如数据分箱以平滑误差和提高算法效率,以及如何处理缺失值和检查变量取值范围的合理性。
摘要由CSDN通过智能技术生成
一、数据理解(很重要!关系到如何分析与挖掘数据)
  • 带着业务目标的眼光看数据
  • 行列数
  • 数据单位,或者说数据的详细程度,是每天还是每月每年
  • 研究群体
  • 理解每个变量及其之间的关系(顺带剔除没有信息量的数据,如线性无关的数据、没有区分度的数据)

二、变量类型
  • 分类变量
1.名义变量
无顺序程度的差别,如:安卓与IOS、动作片与爱情片
2.定序变量
有一定程度的排序,如:优良差、教育程度(小学、初中、高中、大学及以上)

如何处理?
从模型角度,有的处理模型可直接处理分类变量,如决策树,但对于其他模型,就需要对分类变量进行转换成数值变量
1.对于名义变量: 0-1 型哑变量
变量取值范围仅两个时,可用0和1代替
变量取值范围为k(k>2)个时,可构造k-1个哑变量来决定一个名义变量,如教育程度有四种,考虑三个哑变量x1、x2、x3
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值