数据预处理

最新推荐文章于 2023-12-18 11:02:59 发布

choven_meng

最新推荐文章于 2023-12-18 11:02:59 发布

阅读量8.5k

点赞数 2

分类专栏：机器学习/数据挖掘 python数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/choven_meng/article/details/83592761

版权

本文详细介绍了数据预处理的五个步骤：数据清洗、数据转换、数据描述、特征选择和特征抽取。在数据清洗阶段，处理缺失值和噪声数据，如用均值或中值填充连续型数据的缺失值。数据转换涉及采样、类型转换和归一化，归一化有[0,1]标准化和Z-score标准化两种方式。数据描述通过计算统计量和可视化来理解特征影响。特征选择包括嵌入、过滤和包装三种方法，去除冗余和不相关特征。特征抽取利用PCA和LDA等方法降低数据维度。" 114512331,10539153,Java处理TCP客户端断开连接异常,"['Java', 'TCP通信', '异常处理']

摘要由CSDN通过智能技术生成

原始数据中，通常会存在脏数据，主要包括：数据缺失、数据噪声、数据冗余、数据集不均衡等。

数据预处理的方式主要包括：数据清洗、数据转换、数据描述、特征选择（组合）、特征抽取。

1、数据清洗

在数据清洗阶段，首先处理缺失值和噪声数据。

数据缺失表现为存在NA的数据，数据噪声通常表现为异常值，比如-999。这两种异常数据的处理方式相似，如下：

（1）首先根据训练集看缺失值对预测结果的区分程度，如果该特征的缺失值对于分类并无太大作用，可以去除；如果对于预测结果有明显的区别，例如缺失值对应的违约率较高，则可以把缺失值当做该特征的一个新类别。

（2）若一个特征对应多个类别，可以根据各类别对应的预测结果进行组合，比如有一特征为分层，包含1、2、3、-999类别，查看各特征下每个类别对应的违约率，若-999与3数量都很少且违约率相差不大，则可以合并，用以尽可能降低维度，减少特征矩阵的稀疏性。

（3）根据其他特征进行填补。比如，用户基本信息包括证件号、所在地、申请地三个位置信息，分别以前六位数字码表示。当申请地为空时，可以根据证件号和所在地的编码对其进行填充。

（4）对于连续型类型的数据，也可以根据均值或中值等进行填充。

2、数据转换

在数据转换阶段，对数据进行采样处理、类型转换、归一化。

首先需要查看数据集的数据类型，数据类型可以简单划分为数值型和非数值型。数值型有连续性和离散型，非数值型有类别型和非类别型（如字符串型）。

最低0.47元/天解锁文章

关注

2
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
数据预处理

1、数据预处理2、特征选择特征选择是特征工程里的一个重要问题，其目标是寻找最优特征子集。特征选择能剔除不相关或冗余的特征，从而达到减少特征个数，提高模型精度，减少运行时间的目的。另一方面，选取出真正相关的特征简化模型，协助理解数据产生的过程。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。