数据预处理笔记

原创 2016年08月31日 10:56:09

1.数据质量的定义:准确性、完整性、一致性、时效性、可信性和可解释性。
2.数据清理:填补缺失的值,光滑噪声同时识别离群点,纠正数据的不一致性。
填补缺失值的方法:
1)忽略元祖(缺少类标号的时候通常可以这样做);
2)人工填写缺失值(费时费力);
3)使用一个全局常量填充缺失值(方法简单但可靠性差);
4)使用属性的中心度量填充缺失值(使用均值或者中位数填充);
5)使用与给定元祖属同一类的所有样本的属性均值或中位数(对其进行分类之后进行填充);
6)使用最可能的值填充缺失值(采用回归、贝叶斯形式化方法等。最流行的方法)。
3.数据集成:将来自多个数据源的数据整合成一致的数据存储,来减少数据的冗余和不一致问题。
4.数据规约:数据规约是得到数据的规约表示,而使得信息内容的损失最小化。数据规约方法有维规约、数量规约和数据压缩。
1)维规约:减少所考虑的随机变量或维的个数,方法有小波变化、主成分分析、属性子集选择和属性创建。
2)数量规约:使用参数或非参数模型,得到原数据的较小的表示。参数模型只存放模型参数,而非实际数据。例如回归和对数线性模型。非参数方法包括直方图、聚类、抽样和数据立方体聚集。
3)数据压缩:是使用变换,得到原数据的归约或“压缩”表示。如果原数据可以由压缩后的数据重构,而不损失任何信息,则数据压缩是无损的;否则,它是有损的。
5.数据变换:将数据变换成适于挖掘的形式。
6.数据离散化:把相应的数据的值映射到区间或概念标号变化数值数据。这种方法可以自动的产生数据的概念分层,而概念分层允许在多个粒度层进行挖掘。
离散化技术包括分箱、直方图分析、聚类分析、决策树分析和相关分析。

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

【Stanford CNN课程笔记】6.神经网络的数据预处理

今天我们来讲一讲神经网络的数据预处理。1. 数据预处理数据预处理的方法通常有三种,假设数据矩阵X是一个N*D维的矩阵,N表示样本数目,D表示数据的维度。 0均值 是最常用的预处理方法,就是把数据的每一...

机器学习算法笔记之6:数据预处理

一、概述 在工程实践中,我们得到的数据会存在有缺失值、重复值等,在使用之前需要进行数据预处理。数据预处理没有标准的流程,通常针对不同的任务和数据集属性的不同而不同。数据预处理的常用流程为:去除唯一属...

torch入门笔记12:数据的预处理

这一章用实例讲解在正式训练前需要对训练集的处理以及基本操作,请大家从头开始运行itorch   导入两个包,虽然这章没有涉及网络的建立,但是不导入nn这个包的话,数据的读入会出错,具体我也...

深度学习笔记8 数据预处理

数据预处理标准流程 自然灰度图像 (1)灰度图像具有平稳特性,对每个数据样本分别做均值消减(即减去直流分量)——每个图像块,计算平均像素值,并将图像每个像素点减去均值。每个图像块有一个不同的均值。“...

sklearn学习笔记(一)——数据预处理 sklearn.preprocessing

数据预处理 sklearn.preprocessing 标准化 (Standardization) 规范化(Normalization) 二值化 分类特征编码 推定缺失数据 生成多项式特征 定制转换器...

<Principles of fMRI 1>课程笔记8--fMRI的数据预处理

刚采集的原始图像数据会经过一系列的预处理步骤。这些步骤主要是分辨并去除伪影(Artifact),或者是检验一些模型所需的假设是否成立。具体来说,有三个目的: 尽量减少因为数据采集(Data acqui...

【北大天网搜索引擎TSE学习笔记】第11节——倒排索引等数据文件的建立(预处理子系统)

前面的章节详细的介绍了查询服务子系统,可以发现查询服务子系统是基于一些”数据文件“实现查询功能的,这些”数据文件“在第2节中介绍过,包括:词典文件(words.dict)、原始网页数据库文件(Tian...

Python下的机器学习工具scikit-learn(学习笔记3--数据预处理)

(1)数据标准化(Standardization or Mean Removal and Variance Scaling) 进行标准化缩放的数据均值为0,具有单位方差。 scale函数提供一种便捷的...

【数据挖掘概念与技术】学习笔记3-数据预处理

有大量的数据预处理技术:数据清理可以用来清除数据中的噪声,纠正不一致。数据集成由多个数据源合并成一个一致的数据存储,如数据仓库。数据归约可以通过如聚集删除冗余特征或聚类来降低数据规模。数据变换可以用来...

数据分析 R语言实战 学习笔记 第三章 数据预处理

数据分析 R语言实战  学习笔记 第三章 数据预处理 (下) 3.3 缺失值处理 R 中缺失值以NA 表示,判断数据是否存在缺失值的函数有两个,最基本的函数是is....
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:数据预处理笔记
举报原因:
原因补充:

(最多只允许输入30个字)