1 缺失值处理
删除法:
- 相应的属性全部删掉
- 删除相应的记录
填补法:
对于数值型(real-valued)变量,我们经常使用平均法则,就是用平均值来填补缺失值。
2 特征编码
机器学习项目的核心是建模,它的基础是数据。而且,它的输入一定是数值类型的,所以我们不能把一个字符串直接作为一个模型的输入,需要把字符串转换成数值类型,比如向量或矩阵形式。
- 标签编码
标签编码有一个不好的地方:
如果我们直接把类别特征看作是具体的数比如0,1,2… 那这时候,数与数之间是有大小关系的,比如2要大于1,1要大于0,而且这些大小相关的信息必然会用到模型当中。 - 独热编码
在标签特征的基础上需要创建一个向量。这个向量的长度跟类别种类的个数等同的,另外,除了一个位置是1,其他位置均为0, 1的位置对应的是相应类别出现的位置。
类别型特征是没有大小的顺序的,所以独热编码来说它的顺序也无关紧要,只要我们能保证每一个类别有一个对应的编码就可以了,而且确保编码是一对一对应。
数值型变量可以直接使用到模型当中,唯一的处理就是做必要的标准化操作,让变量具有类似的取值范围。
还有一种技术叫做变量的离散化操作
连续性特征的离散化操作可以增加模型的非线性型,同时也可以有效地处理数据分布的不均匀的特点。
也可以这样理解:
1)计算简单
2)简化模型
3)增强模型的泛化能力,不易受噪声的影响
顺序(ordinal)变量:一种常见的处理方法就是把这些变量直接看作是数值型变量来处理.