4.1 数据预处理的种类

一朵雲.

已于 2023-03-13 10:41:32 修改

阅读量803

点赞数

分类专栏：机器学习从入门到入职读书笔记文章标签： python

于 2023-03-13 10:19:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_61031601/article/details/129486770

版权

机器学习从入门到入职读书笔记专栏收录该内容

1 篇文章

订阅专栏

数据预处理有多种方法：数据清理、数据集成、数据变换、数据归约等。如果根据用途分类，数据预处理大致可以分为如下几类

缺失值处理----在数据采集过程中容易产生数据的缺失，而这些数据在样本比较小的时候，无法简单地将缺失数据抛弃，此时缺失值处理很有必要，缺失值处理在这种情况下通常涉及缺失值插补处理，如特殊值插补、均值插补、矩阵补全等。
数据的标准化、规范化----数据标准化是将样本的属性缩放到某个指定的范围；数据规范化是将样本的某个范数(如范数L1)缩放到1，规范化的过程是针对单个样本的，将每个样本缩放到单位范数。
稀疏化----将稠密的特征项进行稀疏化处理，通过只存储和处理非零元素，从而大幅度降低存储空间需求及计算复杂度。
特征编码----对一些非数据化特征，通常是类别特征，进行编码使其转化成一种数字化特征，使其能够被模型所训练，常见的方法有特征二元化、独热编码等。
特征提取----在针对复杂的非数据化特征(如文本或者图像等)进行提取时，从给定的特征集合中选出相关特征子集的过程称为特征选择。在此应注意和特征编码进行区分，特征编码本质上是对特征进行变换，从一种形式转化为另一种形式，其呈现方式产生变化；特征提取则是通过判断一个"像素"集合是否属于某种特征，是对数据维度的特定集合组合的提取。

上述分类并不是相互独立的，部分分类是有重合的，其分类依据在于应用场景，这五大场景能够涵盖通常的数据预处理。

什么是缺失值？不仅仅是某个维度上的数据为空，NaN或者Null，任何没有实际意义的数据字符或者认定标识为空的字符(串)都可以视作缺失值

博客等级

码龄4年

3
原创

1
点赞

4
收藏

1
粉丝

关注

私信

热门文章

分类专栏

机器学习从入门到入职读书笔记 1篇

展开全部收起

下一篇：: 4.3 数据规范化

最新评论

React高频面试题总结（附答案及原理代码）
CSDN-Ada助手: 恭喜你撰写了这篇关于React高频面试题的博客！这个主题非常实用，对于那些准备面试或者想要巩固React知识的人来说应该会非常有帮助。你提供了答案和原理代码，这样读者可以更好地理解和应用这些概念。下一步，我建议你可以继续扩展这个主题，例如可以深入探讨一些React中常见的性能优化技巧，或者分享一些实际项目中的应用经验。同时，你也可以考虑和读者互动，听取他们的反馈和问题，以便更好地满足他们的需求。再次感谢你的分享，期待你未来更多的精彩博客！请保持谦虚的态度，继续努力创作！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
4.2 缺失值处理
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。