一、数据理解(很重要!关系到如何分析与挖掘数据)
- 带着业务目标的眼光看数据
- 行列数
- 数据单位,或者说数据的详细程度,是每天还是每月每年
- 研究群体
- 理解每个变量及其之间的关系(顺带剔除没有信息量的数据,如线性无关的数据、没有区分度的数据)
二、变量类型
- 分类变量
1.名义变量
无顺序程度的差别,如:安卓与IOS、动作片与爱情片
2.定序变量
有一定程度的排序,如:优良差、教育程度(小学、初中、高中、大学及以上)
如何处理?
从模型角度,有的处理模型可直接处理分类变量,如决策树,但对于其他模型,就需要对分类变量进行转换成数值变量
1.对于名义变量:
0-1 型哑变量
变量取值范围仅两个时,可用0和1代替
变量取值范围为k(k>2)个时,可构造k-1个哑变量来决定一个名义变量,如教育程度有四种,考虑三个哑变量x1、x2、x3