缺失值处理及特征编码

最新推荐文章于 2022-10-27 20:29:04 发布

急着吃饭的李先生

最新推荐文章于 2022-10-27 20:29:04 发布

阅读量619

点赞数 1

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43117447/article/details/101258463

版权

机器学习专栏收录该内容

26 篇文章 2 订阅

订阅专栏

1 缺失值处理

删除法:

相应的属性全部删掉
删除相应的记录

填补法:
对于数值型(real-valued)变量，我们经常使用平均法则，就是用平均值来填补缺失值。

2 特征编码

机器学习项目的核心是建模，它的基础是数据。而且，它的输入一定是数值类型的，所以我们不能把一个字符串直接作为一个模型的输入，需要把字符串转换成数值类型，比如向量或矩阵形式。

标签编码
标签编码有一个不好的地方:
如果我们直接把类别特征看作是具体的数比如0，1，2… 那这时候，数与数之间是有大小关系的，比如2要大于1，1要大于0，而且这些大小相关的信息必然会用到模型当中。
独热编码
在标签特征的基础上需要创建一个向量。这个向量的长度跟类别种类的个数等同的，另外，除了一个位置是1，其他位置均为0， 1的位置对应的是相应类别出现的位置。
类别型特征是没有大小的顺序的，所以独热编码来说它的顺序也无关紧要，只要我们能保证每一个类别有一个对应的编码就可以了，而且确保编码是一对一对应。

数值型变量可以直接使用到模型当中,唯一的处理就是做必要的标准化操作，让变量具有类似的取值范围。

还有一种技术叫做变量的离散化操作
连续性特征的离散化操作可以增加模型的非线性型，同时也可以有效地处理数据分布的不均匀的特点。
也可以这样理解:
1）计算简单
2）简化模型
3）增强模型的泛化能力，不易受噪声的影响
顺序（ordinal）变量:一种常见的处理方法就是把这些变量直接看作是数值型变量来处理.

急着吃饭的李先生

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
缺失值处理及特征编码

1 缺失值处理删除法:相应的属性全部删掉删除相应的记录填补法:对于数值型(real-valued)变量，我们经常使用平均法则，就是用平均值来填补缺失值。2 特征编码机器学习项目的核心是建模，它的基础是数据。而且，它的输入一定是数值类型的，所以我们不能把一个字符串直接作为一个模型的输入，需要把字符串转换成数值类型，比如向量或矩阵形式。标签编码标签编码有一个不好的地方:如果我...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。