缺省值_数据预处理——缺省值处理

最新推荐文章于 2022-12-13 18:09:42 发布

VIP文章 weixin_39574140

最新推荐文章于 2022-12-13 18:09:42 发布

阅读量3.7k

点赞数 2

文章标签：缺省值

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39574140/article/details/111696536

版权

在数据分析中，高质量的数据对于分析结果起着重要的作用。而在现实应用中，数据往往存在缺失值、重复值等情况，在使用之前需要进行预处理。通常，数据预处理没有标准的流程，对于不同的任务和数据集属性有着不同的预处理策略和要求。常用的数据预处理流程主要为：

去除唯一属性：唯一属性通常是一些id属性，这些属性并不能刻画样本自身的分布规律，所以删除这些唯一属性内容。
处理缺失值。
特征编码
数据标准化正则化：
特征选择:
主成分分析：

流程中，特征编码、数据标准化、特征选择及主成分分析已经在文章《预测之特征工程》中进行相关介绍。本文则主要介绍数据缺失处理的一些方法。

——————★★★★★——————

数据缺失在许多研究领域都是一个复杂的问题，数据缺省可能会造成了以下影响系统丢失了大量的有用信息、系统中所表现出的不确定性更加显著，系统中蕴涵的确定性成分更难把握，包含空值的数据会使挖掘过程陷入混乱，导致不可靠的输出。

从数据缺省的原因来看，主要有以下几个原因：

有些信息暂时无法获取。例如非上市公司的财务情况
有些信息是被遗漏的。可能是因为输入时认为不重要、忘记填写了或对数据理解错误而遗漏，也可能是由于数据采集设备的故障、存储介质的故障

最低0.47元/天解锁文章

weixin_39574140

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
缺省值_数据预处理——缺省值处理

在数据分析中，高质量的数据对于分析结果起着重要的作用。而在现实应用中，数据往往存在缺失值、重复值等情况，在使用之前需要进行预处理。通常，数据预处理没有标准的流程，对于不同的任务和数据集属性有着不同的预处理策略和要求。常用的数据预处理流程主要为：去除唯一属性：唯一属性通常是一些id属性，这些属性并不能刻画样本自身的分布规律，所以删除这些唯一属性内容。处理缺失值。...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。