机器学习之数值特征处理及数据探索

最新推荐文章于 2023-08-04 17:00:13 发布

爱学习的人工智障

最新推荐文章于 2023-08-04 17:00:13 发布

阅读量680

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38410551/article/details/88370565

版权

机器学习专栏收录该内容

63 篇文章 4 订阅

订阅专栏

1. 分析数据是否有缺失值，是否有噪声。
2. 对不同类型的数值特征进行处理。
（1）对于类别型特征要进行独热编码。
注：独热编码将一维类别特征改为K维类别特征，其中k为该类别特征的类别总数，只有其中为1，其余为0。
（2）对于数值特征，要将其去量纲化，即归一化数值范围，变为统一的单位。
3. 分析样本数据是否均衡。
对于不均衡的样本分布，要通过一些方法设法使其变得均衡化。
4. 处理特征数据中存在的缺失值。
如果缺失值是随机分布的，对最后的训练结果没有影响，则用中值取代。（具体实例可参见机器学习第二章所讲的内容）
数据分析：
4. 查看数据是否有大量缺失值。
5. 查看数据的规模。
6. 查看数据特征对应的取值范围以及分布。
7. 查看数据特征和标签值之间的关系。（具体实例可参见机器学习第二章所讲的内容）
注：

对同样的训练样本数据采用不同的特征处理方法，最终训练模型的分数差距很大。
如上图所示，原始数据最终的分数为0.6668，log特征编码的分数为0.6731，tfidf特征编码的分数为0.6331 原始特征+tfidf的分数为0.5981。
所以，需要根据数据类型，采用不同的特征处理方式，最终得到的分数也会差异很大，特征处理是提升分数的一种有效手段。

爱学习的人工智障

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。