谈谈缺失值

最新推荐文章于 2024-05-09 15:32:45 发布

Cosophia

最新推荐文章于 2024-05-09 15:32:45 发布

阅读量229

点赞数 5

文章标签：数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Cosophia/article/details/135890877

版权

目录

1.直接剔除缺失值的问题所在

2.缺失值的类型

①完全随机缺失 (MCAR)：

②随机缺失 (MAR)

③非随机缺失 (MNAR)

3.缺失值的解决方案

一.导读

前两篇我们写到了关于简单数据与复杂数据缺失值填充的方法，那这一节我们来谈一谈缺失值。

二.思考

对于这个社会群体，数据起着很大的作用，根据数据我们能够分析出一些现状和趋势，不仅如此在科学实验当中还能推动理论的验证。而在不同的资源的收集过程当中，难免会出现这样的情况，那么对于缺失值的解决就十分必要，这时候缺失值的正确性也更加重要，这恰恰取决于你选择的算法。缺失值其实顾名思义，就是在这一整个数据集中的缺失部分，可能是人为错误、或是机器原因。

1.直接剔除缺失值的问题所在

我们在上篇提及的剔除缺失值，如果对于数据中缺失值的比例相对于样本值总数较小，那么剔除掉缺失值是没有问题的，但是往往现实项目当中，我们遇到缺失值的问题并非如此简单，若直接剔除掉这些缺失值会导致“自由度”降低。

2.缺失值的类型

①完全随机缺失 (MCAR)：

数据的缺失完全随机不由其他的数据特征取决。例如在调查问卷中的性别字段，取决于调查对象，不能从其他数值来加以断定。再比如家庭住址的缺失，这种极端的缺失的形状。

②随机缺失 (MAR)

数据的缺失不是完全随机的，即该类数据的缺失依赖于其他完全变量。

③非随机缺失 (MNAR)

缺失值既取决于数据的特征又取决于缺失值本身。例如女性不愿透露其年龄，年龄的缺失与性别有关。

3.缺失值的解决方案

我们在之前就讲过：

数据探索与可视化：数据值缺失处理 -上-CSDN博客

数据探索欲可视化：数据值缺失填充-下-CSDN博客

之后我们还会加以介绍随机森林，在学习决策树之后，我们拭目以待。

三.结尾

数据缺失处理对于初学者来说相当重要，搞清楚目的、概念、做法、远远不够，我们还需要做出更多的实践来获取经验，祝前程似锦。

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
谈谈缺失值

而在不同的资源的收集过程当中，难免会出现这样的情况，那么对于缺失值的解决就十分必要，这时候缺失值的正确性也更加重要，这恰恰取决于你选择的算法。我们在上篇提及的剔除缺失值，如果对于数据中缺失值的比例相对于样本值总数较小，那么剔除掉缺失值是没有问题的，但是往往现实项目当中，我们遇到缺失值的问题并非如此简单，若直接剔除掉这些缺失值会导致“自由度”降低。前两篇我们写到了关于简单数据与复杂数据缺失值填充的方法，那这一节我们来谈一谈缺失值。数据的缺失不是完全随机的，即该类数据的缺失依赖于其他完全变量。
复制链接

扫一扫

博客等级

码龄1年

64
原创

660
点赞

408
收藏

612
粉丝

关注

私信

热门文章

分类专栏

Python 付费 12篇
爬虫 4篇
Linux shell 4篇
H5 6篇
Javascript 7篇
杂谈 1篇
数据探索与可视化 17篇
机器学习 14篇

最新评论

清华源地址
Cosophia: 一直都能使用
清华源地址
Cosophia: 不会吧
清华源地址
m0_56069199: 请问这两天是失效了吗，怎么换了源还是超级慢呀
Pyhton基础入门:运算符
CSDN-Ada助手: 恭喜你发布了第18篇博客，标题为“Pyhton基础入门:运算符”！你的持续创作精神真令人钦佩。对于下一步的创作建议，我建议你可以考虑写一些实际应用场景下的Python运算符的使用案例，让读者更容易理解并运用到实际项目中。希望我的建议对你有所帮助，期待你更多精彩的文章！
数据探索与可视化:异常值
CSDN-Ada助手: 恭喜您撰写了第19篇博客！标题中的“数据探索与可视化:异常值”引起了我的兴趣。您对异常值的探索和可视化能够提供有价值的见解。能够发现和解释异常值对于数据分析至关重要，因此您的博客对读者来说一定非常有用。在下一步的创作中，我建议您可以进一步探索异常值的处理方法。除了可视化探索异常值外，了解如何识别和处理这些异常值对于数据分析师来说也是重要的技能。您可以介绍一些常用的异常值处理技术，并提供示例和案例来说明它们的应用场景和效果。这样的内容将进一步丰富您的博客，并帮助读者更好地理解和应用异常值分析的方法。希望我的建议对您有所帮助，并期待您未来更多有关数据探索和可视化的精彩博客！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。