ps,第一章的内容由于是科普性的内容,我就暂且没有对其进行相关概念的整理
Chapter 2 数据的预处理
数据预处理是指在对数据进行正式处理计算前 ,根据后续计算的需求对原始数据进行审计、清洗、变换
2.1 数据质量
对数据质量的三个描述:正确性、完整性、一致性
2.1.1 统计学规律
(1)第一数字定律:表示人们在使用数字的使用具有一定的使用的规律,防止出现编造数据
(2)小概率原理:
2.1.2 语言学规律
频率特征、连接特征、重复特征
这些规律特征,都是为了帮助我们更好的审计相关的数据的情况。
2.1.3 数据连续性理论
简单来说,人们的各种行为活动,现在很多都是碎片化了,我们该如何对其进行一定的处理,然后将数据关联起来,这样能够分析、集成、利用
2.1.4 数据鉴别技术
数据鉴别的方法有以下三种:
消息鉴别码
HASH函数
数字签名
2.1.5 探索性数据分析
耐抗性、残差、重新表达、启示
2.2 数据审计
审计的目的就是为了发现数据中的一些问题:
缺失值、噪声值、不一致值、不完整值
2.2.1 预定义审计
2.2.2 自定义审计
2.2.3 可视化审计
2.3 数据清洗
它的目的是在审计活动的基础之上,将脏数据清洗成干净数据
2.3.1 缺失数据处理
2.3.2 冗余数据处理
2.3.3 噪声数据处理
分箱:等深度分箱(成员的个数相等)、等宽度分箱(成员的取值范围相等)
聚类:找出群中的 离群点/故里点
回归:对数据进行平滑处理,去除噪声数据
2.4 数据变换
常见的数据的变换的方式以及对应的作用有以下几种:
(1)平滑处理:去除噪声数据,常见的方法:分箱、回归、聚类
(2)特征构造:采用一致性特征,构造出数据的新的特征
(3)聚集:将数据进行汇总或者聚合处理,进行粗粒度计算
(4)标准化:讲属性的特征值处在一个合适的范围之内,常见的方法有Max-Min Z-Score
(5)离散化:采用区间或者概念标签来表示数据
2.4.1 大小变换
数据标准化处理的两种方式:
(1)0-1 标准化
(2)Z-Score:经过处理的数据会符合标准正态分布,如均值为0,标准差为1
2.4.2 类型变化:
讲数据的类型向目标的数据类型或者格式进行转化
2.5 数据集成
(在这之前应该要有数据库的简单的表的基本知识,如果不了解,请大家提前百度一下)
数据集成的方式有两种:内容集成和结构集成
1、内容集成:当两个表的结构与来源数据集的结构相同的时候,集成就是将两个表的数据的内容进行合并处理
2、结构i集成:来源的两个表中的数据的属性不是完全一样,也就是说,结构上不一样,如果数据是相互补充的,我们可以将新的属性结合起来
实际上,上面就是对表的几个基本的操作
3、数据集成需要注意的问题
(1)模式集成:如何确定来自多个数据源中的数据的匹配性,比如果在结构集成的时候,如何确定数据的唯一性
(2)数据冗余:属性的冗余性,容易造成后面数据集成中出现的不一致的问题
解决数据冗余的问题,我们可以采用相关分析方法,就是相关性分析(概率论相关基础知识)
结论:
- 如果ra,b>0 ,则A和B正关联
- 如果ra,b<0 , 则A和B负关联
- 如果ra,b=0 , 则表示两者相互独立
(3) 冲突检测与消除:被集成的数据表述相同属性的数据会有单位或者表达语义的尺度上的问题。
2.6 其他数据预处理方法
2.6.1 数据脱敏
(1)定义:是指在不影响数据分析结果的准确性的前提下,对原始数据进行一定的变换的操作,对其中的个人或者敏感数据进行替换、过滤或者删除操作,降低相关主体的信息安全隐患和个人隐私风险
(2)数据脱敏应当满足以下三个要求
- 单向性
- 无残留
- 易于实现
2.6.2 数据归约
(1)定义:是指在不影响数据的完整性和数据分析结果的正确性的前提下,减少数据规模的方式来达到提升数据分析的效果和效率的目的
(2)两种规约的方法
- 维归约:
为了避免维数太高的情况出现,在不影响数据完整性和数据分析的结果正确性的前提下,通过减少随机变量的个数和属性的个数的方式,世纪上也就是传统的将低维度的处理,PCA(主成分分析) SVD(奇异直法分解) DWT(离散小波转换) - 值归约:在不影响数据的完整性和数据分析结果的曲阿本土徐阿,使用参数模型或者非参数莫新嗯的方法近似的表示数据的分布,进而实现数据归约的目的
- 2.6.3 数据标柱
- 语法标柱
- 语义标柱