数据预处理笔记

本文为期末复习笔记,详细介绍了数据预处理的基础理论知识

一、数据预处理从以下两个维度考虑

{数据质量问题,数据的计算要求}

考虑数据的质量问题,数据往往会存在如下问题

1、数据的不一致性----》进行数据审计

2、数据的错误虚假、无效的数据、数据的缺失、重复的数据------》进行数据清洗

考虑计算要求,对数据处理有如下形式

1、对于数据格式、大小不符合后续数据处理要求,-----》进行数据变换

2、需要合并的数据--------》进行数据集成

3、数据缺少必要的标注信息-------》数据标注

4、无序数据-----------》数据排序

二、数据质量
1、基本属性

数据基本属性应当包括数据的完整性、有效性、一致性、密度

数据存在着一些扩展属性,如形式化程度、时效性、精确性、自描述性。

2、统计学规律1

第一数字定律

自然数1--9出现在首位的使用频率,公式为

P(d)=log10(1+1/d),依据公式,数字的使用频率依次递减

3、统计学规律2

小概率原理:

一个事件如果发生的概率很小,那么它在一次试验中几乎不可能发生,而在多次重复的实验中几乎是必然发生

在统计学中一般认为小于等于0.05或小于0.01的概率为小概率

4、数据鉴别技术
1)消息鉴别码MAC

MAC是一个固定长的鉴别码,其计算方式如下:MAC=C(K,M)

M为输入消息的变长

K为双方共享密钥

C为MAC函数

C(K,M)为MAC函数的返回值

注意消息鉴别码与数据加密是两个不同的概念,在实际工作中,需要选择二者的执行顺序,理论上看,有如下三种

a、MAC直接附加在消息之后

b、MAC附加在消息之后、并对整体进行加密

c、先对消息加密、再对密文生成鉴别码

消息鉴别码的实现方法有很多例如基于对称分组密码的MAC(CBC),基于CFB的MAV等。

2)HASH函数

哈希函数具有如下特征

a、输入为任意长度的消息M

b、输出一个固定长度的散列值,称为消息摘要

c、消息中的任意一位或多位的变化都将导致该散列值的变化

一个好的hash函数应当具有如下特征:

容易计算M-->h

单向性,依据h计算M很困难

抗碰撞:要使得H(M1)== H(M2) 很困难

3)数字签名

签名的基本要求:签名者无法否定,接收者能够验证,其他人无法伪造

在有争议时,第三方进行验证

5、EDA探索性数据分析

对已有的数据在尽量少的假定下进行探索

通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律

EDA与验证性分析的主要区别:

1、EDA不需要实现假设、而验证性分析需要提前预设假设

2、EDA采用方法较之更为简单

3、一般的数据科学项目中、EDA在先,验证性分析在后

三、数据审计

数据审计是指按照数据质量的一般规律与评价方法,对数据内容及其元数据进行审计,发现其中存在的问题

例如:

缺失值、噪声值(异常数据)、不一致值(相互矛盾的数据)、不完整值(被篡改或无法溯源的数据)

预定义审计

数据字典:用户自定义的约束条件、数据的自描述信息、数据的定义域与阈值、数据包含的关联信息。

变量定义规则,函数定义规则·、其它自定义规则

四、数据清洗

对原始数据进行数据审计,对于数据审计不通过的数据,需要进行缺失数据、冗余数据、噪声数据的数据清洗,直至数据审计通过。

1、缺失数据的处理

缺失数据分析:

随机缺失:对于数据量足够大的数据集可以直接丢弃,不然可以用中心度量值或特征值替代

非随机缺失:基于常识以及专业知识分析出异常数据,丢弃或者替换,除此之外,对于难以确定的异常,可以通过增加样本容量以减小异常数据的影响权重

缺失数据处理:

替换:用固定值、均值、中值、众数等中心趋势度量值替代

丢弃。

2、冗余数据的处理

重复数据:重复过滤

无关数据:条件过滤

3、噪声数据处理

a、噪声数据:数据中存在着错误或异常

b、造成噪声数据的原因:收集数据设备问题,数据录入错误、数据传输错误、存储介质损坏等。

c、噪声数据的检测:

1)基于统计技术:使用距离度量值欧氏距离、马氏距离、曼哈顿距离

2)基于距离技术:计算n维数据集中所有样本间的测量距离,如果样本S中有一部分数量为P的样本到Si的距离,那么Si为数据集中的一个噪声数据。

处理噪声数据方法

分箱算法、聚类算法、回归算法

分箱算法{等深分箱,等宽分箱}

五、数据变换
数据变换的方法:

1、平滑处理 去除噪声数据(分箱、聚类、回归)

2、特征构造 (构造新特征)

3、聚集 进行粗粒度计算

4、标准化(规范化) 将特征按一定比例缩放,使之落入一个特定的区间

5、离散化 用区间或概念标签表示数据

0-1标准化:

对原始数据进行线性变化、使得结果落入区间内转换函数如下

缺点是每当有新的数据假如是,Max和Min可能会变化,需要重新计算Max和Min的值

z-score标准化:

经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数

μ为平均数。标准差σ

数据集成:

{内容集成、结构集成}

内容集成:如19级学生,20级学生

结构集成如将包含不同字段的有关学生的属性集成到一起

数据脱敏:

数据脱敏的基本原则是单向性无保留易于实现

数据规约:

数据消减或者约简,是在不影响最终挖掘的结果前提下,缩小数据规模

数据规约技术可以得到数据集的规约表示,它小得多,但仍接近原始数据的完整性

用于数据归约的时间不应当超过或抵消在规约后的数据集上挖掘节省的时间

对规约后的数据集进行挖掘可提高挖掘效率,并产生几乎相同的结果

数据规约策略

数量规约:直方图、聚类、数据立方体聚集等非参数方法,使用替代的较小的数据表示原始数据

属性子集选择:

检测并删除不相关,弱相关,或冗余的属性

抽样:

使用比数据小得多的随机样本来表示大型数据集,取样方法{聚类取样、分层取样}

数据标注:

按标注活动的自动化程度,可分为{手动标注、自动化标注、半自动化标注}

从标注的实现层次来看,可分为{语法标注、语义标注}

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值