如何处理数据中的缺失值？？

最新推荐文章于 2023-11-01 10:26:48 发布

Felaim

最新推荐文章于 2023-11-01 10:26:48 发布

阅读量1.7k

点赞数

分类专栏：数据处理文章标签：数据大数据缺失

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Felaim/article/details/71213522

版权

数据处理专栏收录该内容

11 篇文章 1 订阅

订阅专栏

不错，我们现在是处在大数据时代，信息爆炸，数据量呈指数级增长。但是，数据量大，不代表有效的数据很多。而且对于有些数据，拿到往往是有缺失值的，那么数据缺失会带来哪些问题呢？

假设有1000个样本，20个特征，这些数据都是机器收集回来的（在slam上这种问题应该还蛮常见的），若机器上的某个传感器损坏导致一个特征无效时该怎么办？是否要重新采集整个数据集？在这种情况下，另外的19个特征要怎么处理？它们是否还可用？答案是肯定的，因为有些情况下数据集的采集整理并不是那么方便的，有些时候采数据的成本是很高的，即使数据集存在瑕疵，也是要通过一定的方法将数据集利用起来的，主要的方法有以下几种：

（1）使用可用特征的均值来填补缺失值

（2）使用特殊值来填补缺失值，如-1

（3）忽略有缺失值的样本

（4）使用相似样本的均值填补缺失值

（5）使用另外的机器学习算法预测缺失值

当然，也有很多文献讲其它的方法，但比较简单易行的应该就是上述的几种啦O(∩_∩)O

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
如何处理数据中的缺失值？？

不错，我们现在是处在大数据时代，信息爆炸，数据量呈指数级增长。但是，数据量大，不代表有效的数据很多。而且对于有些数据，拿到往往是有缺失值的，那么数据缺失会带来哪些问题呢？假设有1000个样本，20个特征，这些数据都是机器收集回来的（在slam上这种问题应该还蛮常见的），若机器上的某个传感器损坏导致一个特征无效时该怎么办？是否要重新采集整个数据集？在这种情况下，另外的19个特征要怎么处理？它们是否还可
复制链接

扫一扫

专栏目录

Felaim

CSDN认证博客专家 CSDN认证企业博客

码龄8年

481: 原创

4148: 周排名

837: 总排名

166万+: 访问

: 等级

1万+: 积分

2万+: 粉丝

976: 获赞

844: 评论

2986: 收藏

私信

关注

热门文章

分类专栏

最新评论

J-Linkage clustering算法的一点理解
日常摸鱼的搬砖工: 博主您好，请问能分享源码吗，最近在做这方面的研究，希望能看看这个算法的效果，非常感谢我的邮箱[email protected]
CUDA: (六) 时间计算、CUDA stream(CUDA 流)
XiangrongZ: 我想问一下，如果我在算法中调用了gpu，我想计算整个算法的运行时间，应该也用cpu时间进行估计吧？
Paper reading: SinGAN(ICCV 2019)
@远方传来风笛: 您好，我想请问下如何运行代码 main_train.py: error: the following arguments are required: --input_name butterly1.jpg 就是我第一步就错了，如何修改--input_name啊
ORB-SLAM2的地图保存
蓝莓酱.: 博主您好，想问一下orbslam3也可以用这种方法保存吗
Jupyter Notebook: 怎么使用cv2.imshow()来显示图像(避免图像卡死或无反应)
遍地滚豆豆: 按照博主的code的代码，显示图片后会卡死。图片也没办法手动x掉😭

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。