数据理解和预处理阅读笔记

数据理解

数据的记录的详细程度(天、小时等)

确定研究群体(每部电影or每天的票房(层次分析))

理解每个变量的含义(存在冗余变量)


变量类型

分类变量

名义变量(类别间没有顺序和好坏)转换方法0-1型哑变量;或者类别太多,将观测较多的类别拿出来,剩下的都归为“其他”

定序变量(类别间排列有好坏,会将类别程度转为数值自变量)

数值变量:代数运算

转换方式——数据分箱:等宽分箱,等频分享,基于K均值聚类的分析

1.根据取值范围

2.决策树模型不能很好的处理数值模型,使用大于、小于等运算符时处理效率很低

3.分箱后转为定序变量


质量检查

缺失检查:

一个变量的缺失程度达到70%,直接排除

其他属性计算

插值缺补

数值变量:均值,中位数

分类变量:用出现比例最高的类

变量取值合理性检查




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值