数据理解
数据的记录的详细程度(天、小时等)
确定研究群体(每部电影or每天的票房(层次分析))
理解每个变量的含义(存在冗余变量)
变量类型
分类变量:
名义变量(类别间没有顺序和好坏)转换方法0-1型哑变量;或者类别太多,将观测较多的类别拿出来,剩下的都归为“其他”
定序变量(类别间排列有好坏,会将类别程度转为数值自变量)
数值变量:代数运算
转换方式——数据分箱:等宽分箱,等频分享,基于K均值聚类的分析
1.根据取值范围
2.决策树模型不能很好的处理数值模型,使用大于、小于等运算符时处理效率很低
3.分箱后转为定序变量
质量检查
缺失检查:
一个变量的缺失程度达到70%,直接排除
其他属性计算
插值缺补
数值变量:均值,中位数
分类变量:用出现比例最高的类
变量取值合理性检查