数据预处理一些笔记

最新推荐文章于 2022-09-16 19:18:17 发布

Jemila

最新推荐文章于 2022-09-16 19:18:17 发布

阅读量1.8k

点赞数

分类专栏： Machine Learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jemila/article/details/59555150

版权

Machine Learning 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

数据预处理分为：数据清洗、数据集成、数据变换，数据规约

数据清洗（去除噪声和异常值）

异常值常用的检验方法有：聚类(二维特征)，散点图，残差图，（别人说的小波，不确定是不是有用）偏度和峰度值，同时去除一下重复的、不重要的属性和数据，多维特征异常值目前是每个特征用标准值和方差做检验，文本型数据一般不做异常值处理。如果简单模型，计算相似度后用方差检验就够。如果用模型，可以考虑密度聚类。

数据集成（将不同的来源归纳在同一个数据集中）

数据变换（将数据整理为可以挖掘的样式）

数据规约

1、基于树的方法是不需要进行特征的归一化，例如随机森林等。基于参数的模型或基于距离的模型(线性回归，神经网络, SVM,etc) ，都是要进行特征的归一化,将不同量纲下的数据转换为统一量纲，常用的取对数函数转换或者均值转换。

2、缺失值的处理：

对于缺失数据的处理方法有以均值替代、众数替代、K最近距离邻发、组合完整化方法以及直接剔除等方法

如果数据比较大而完整的话，缺失的数据可以丢弃；

如果数据缺失不大的话，可以手工填写；

如果数据缺失比较严重的，取完整的数据作为测试集，不完整的数据作为验证集，对于缺失值进行预测或者使用其他方式替代。

3、连续特征离散化（分箱）

价格[0,1000]可以处理为:<1000,1000-2000,2000-3000...

4、时间序列的数据需要平稳化处理

5、文本数据转化为词向量

数据预处理过程需要不断重复更新优化（清洗删除清洗删除...）

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。