缺失值处理及特征编码

1 缺失值处理

删除法:

  1. 相应的属性全部删掉
  2. 删除相应的记录

填补法:
对于数值型(real-valued)变量,我们经常使用平均法则,就是用平均值来填补缺失值。

2 特征编码

机器学习项目的核心是建模,它的基础是数据。而且,它的输入一定是数值类型的,所以我们不能把一个字符串直接作为一个模型的输入,需要把字符串转换成数值类型,比如向量或矩阵形式。

  1. 标签编码
    标签编码有一个不好的地方:
    如果我们直接把类别特征看作是具体的数比如0,1,2… 那这时候,数与数之间是有大小关系的,比如2要大于1,1要大于0,而且这些大小相关的信息必然会用到模型当中。
  2. 独热编码
    在标签特征的基础上需要创建一个向量。这个向量的长度跟类别种类的个数等同的,另外,除了一个位置是1,其他位置均为0, 1的位置对应的是相应类别出现的位置。
    类别型特征是没有大小的顺序的,所以独热编码来说它的顺序也无关紧要,只要我们能保证每一个类别有一个对应的编码就可以了,而且确保编码是一对一对应。

数值型变量可以直接使用到模型当中,唯一的处理就是做必要的标准化操作,让变量具有类似的取值范围。

还有一种技术叫做变量的离散化操作
连续性特征的离散化操作可以增加模型的非线性型,同时也可以有效地处理数据分布的不均匀的特点。
也可以这样理解:
1)计算简单
2)简化模型
3)增强模型的泛化能力,不易受噪声的影响
顺序(ordinal)变量:一种常见的处理方法就是把这些变量直接看作是数值型变量来处理.

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值