数据预处理笔记

原创 2016年08月31日 10:56:09

1.数据质量的定义:准确性、完整性、一致性、时效性、可信性和可解释性。
2.数据清理:填补缺失的值,光滑噪声同时识别离群点,纠正数据的不一致性。
填补缺失值的方法:
1)忽略元祖(缺少类标号的时候通常可以这样做);
2)人工填写缺失值(费时费力);
3)使用一个全局常量填充缺失值(方法简单但可靠性差);
4)使用属性的中心度量填充缺失值(使用均值或者中位数填充);
5)使用与给定元祖属同一类的所有样本的属性均值或中位数(对其进行分类之后进行填充);
6)使用最可能的值填充缺失值(采用回归、贝叶斯形式化方法等。最流行的方法)。
3.数据集成:将来自多个数据源的数据整合成一致的数据存储,来减少数据的冗余和不一致问题。
4.数据规约:数据规约是得到数据的规约表示,而使得信息内容的损失最小化。数据规约方法有维规约、数量规约和数据压缩。
1)维规约:减少所考虑的随机变量或维的个数,方法有小波变化、主成分分析、属性子集选择和属性创建。
2)数量规约:使用参数或非参数模型,得到原数据的较小的表示。参数模型只存放模型参数,而非实际数据。例如回归和对数线性模型。非参数方法包括直方图、聚类、抽样和数据立方体聚集。
3)数据压缩:是使用变换,得到原数据的归约或“压缩”表示。如果原数据可以由压缩后的数据重构,而不损失任何信息,则数据压缩是无损的;否则,它是有损的。
5.数据变换:将数据变换成适于挖掘的形式。
6.数据离散化:把相应的数据的值映射到区间或概念标号变化数值数据。这种方法可以自动的产生数据的概念分层,而概念分层允许在多个粒度层进行挖掘。
离散化技术包括分箱、直方图分析、聚类分析、决策树分析和相关分析。

版权声明:本文为博主原创文章,未经博主允许不得转载。

数据分析之数据预处理

数据预处理步骤及方法 1、缺失值处理 1.1、造成缺失值原因 缺失值处理原则:使用最可能的值代替缺失值,使缺失值与其他数值之间的关系保持最大。 缺失值处理的方法很多,比如删除记录、均值填充、中...
  • qq_33323162
  • qq_33323162
  • 2017年03月06日 18:01
  • 489

常用的数据预处理方法

No1.标准化(Standardization or Mean Removal and Variance Scaling) 变换后各维特征有0均值,单位方差。也叫z-score规范化(零均值规范化)...
  • Savinger
  • Savinger
  • 2016年10月20日 20:22
  • 4285

读书笔记 -- 001_数据预处理_数据清理

1、概述 实际的数据库极易受噪声、缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异种数据源。低质量的数据将会导致低质量的挖掘结果。有大量的数据预处理技术: - - 数据清理:可以用来清楚...
  • redaihanyu
  • redaihanyu
  • 2015年12月07日 21:20
  • 1468

大数据处理之道(预处理方法)

一:为什么要预处理数据? (1)现实世界的数据是肮脏的(不完整,含噪声,不一致) (2)没有高质量的数据,就没有高质量的挖掘结果(高质量的决策必须依赖于高质量的数据;数据仓库需要对高质量的数据进行一致...
  • u010700335
  • u010700335
  • 2014年12月23日 10:50
  • 5340

【总结】数据预处理

实习有一段时间了,一直在公司做风控项目。项目的过程中,算法的选择和实现加起来只花了不到一礼拜的时间就搞定了,而期间特征变量的选择以及对数据的各种处理却花了我们大半个月的时间。我觉得,对于一个数据分析人...
  • mw21501050
  • mw21501050
  • 2017年06月22日 16:20
  • 254

数据预处理的一些知识

数据预处理的一些知识做研究时只要与数据分析相关就避免不了数据预处理。我们常见的预处理包括:标准化(规范化),归一化,零均值(化),白化,正则化……这些预处理的目的是什么呢?网上查的总是零零散散,很难搞...
  • u012140304
  • u012140304
  • 2016年12月20日 11:02
  • 1650

数据挖掘中的数据预处理方法总结

1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。 2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。 3.数据挖掘中使用的数据的原则 应该是从原始数据中选取合适的属性作...
  • wang1127248268
  • wang1127248268
  • 2016年12月11日 10:37
  • 1242

数据挖掘笔记(三)—数据预处理

1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。 2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。 3.数据挖掘中使用的数据的原则 应该是从原始数据中选取合适的属性作...
  • lizhengnanhua
  • lizhengnanhua
  • 2013年05月28日 09:19
  • 46482

图像数据预处理(上)

概要 数据预处理在众多深度学习算法中都起着重要作用,实际情况中,将数据做归一化和白化处理后,很多算法能够发挥最佳效果。然而除非对这些算法有丰富的使用经验,否则预处理的精确参数并非显而易见。在本页...
  • u010555688
  • u010555688
  • 2014年04月23日 11:22
  • 2929

matlab 数据预处理及常用操作

matlab
  • u010402786
  • u010402786
  • 2015年06月26日 10:34
  • 1923
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:数据预处理笔记
举报原因:
原因补充:

(最多只允许输入30个字)