小常识2-机器学习数据预处理

 小常识2-机器学习数据预处理

机器学习里有一句名言:数据和特征决定了机器学习的上限,而模型和算法的应用只是让我们逼近这个上限。

 

主要包括三部分:

一是获取数据、数据抽样

二是数据探索

三是数据预处理与清洗

 

 获取数据,数据抽样

如何保证取样数据的质量?是否在足够范围内有代表性?数据样本取多少合适?如何分类(训练集、测试集、验证集)等等。当要处理或者要分析的数据量比较大可以使用抽样技术:

1.   简单随机抽样

2.   系统抽样

3.   整群抽样

4.   分层抽样

当然,当计算机可以充分使用所有数据时,也不必要进行数据抽样了。

数据质量稽核和特征分析

模型的构建依靠于数据的数量以及质量,所以需先确定数据的状态。比如:

有没有出现从未设想过的数据状态?

其中有没有什么明显的规律和趋势?

各特征之间有什么样的关联性?

解决这些问题的途径就是绘制图表、计算某些特征量,对样本数据集的结构和规律进行分析

数据探索可以从数据质量分析和数据特征分析等两个角度进行展开:

 

1  数据质量分析:是数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据。在数据挖掘中,脏数据包括:

1) 缺失值:数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两           者都会造成分析结果的不准确。

2)异常值:异常值是指样本中的个别值,其数据明显偏离其余的观测值。

3)不一致的值:数据不一致性是指数据的矛盾性、不相容性。

4)重复数据及含有特殊符号的数据

2  数据特征分析:对数据进行质量分析以后,可以通过绘制图表、计算某些特征量等手段进行数据的特征分析。主要通过分布分析、对比分析、统计量分析、周期性分析、贡献度分析、相关性分析等角度进行展开。

2.1  分布分析:分布分析能揭示数据的分布特征和分布类型。对于定性数据,可用饼形图和条形图直观的现实分布情况。

2.2  对比分析:对比分析是指把两个相互联系的指标进行比较,从数据量上展开和说明研究对象规模的大小,水平的高低,速度的快慢。在对比分析中,选择合适的对比标准是十分关键的步骤。

2.3  统计量分析:用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析。

2.4  周期性分析:周期性分析是探索某个变量是否随着时间变化而呈现出某种周期变化趋势。时间尺度相对较长的周期性趋势有年度周期性趋势、季节性周期性趋势,相对较短的有月度周期性趋势、周度周期性趋势,甚至更短的天、小时周期性趋势。

2.5  贡献度分析:贡献度分析又称帕累托分析,它的原理是帕累托法则又称2/8定律。

2.6  相关性分析:分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程称为相关分析,

1) 判断两个变量是否具有线性相关关系的最直观的方法是直接绘制散点图;

2)需要同时考察多个变量间的相关关系时,可利用散点图矩阵同时绘制各变量间的散点图,从而快速发现多个变量间的主要相关性;

1)Pearson相关系数:一般用于分析两个连续性变量之间的关系;

2)Spearman秩相关系数:一般用来处理不服从正态分布的变量、分类或等级变量之间的关联性,也称等级相关系数。

3)判定系数:判定系数是相关系数的平方,用r^2表示:用来衡量回归方程对y的解释程度。

 

如图展示了图表选择情况:

 

数据预处理和清洗

数据预处理的几个步骤:数据清理,数据集成,数据变换,数据归约等

1、 数据清理:填写缺失的值、光滑噪声数据、识别或删除离群点、解决不一致性。

目标:格式标准化,异常数据清除,错误纠正,重复数据的清除。

2、 数据集成:将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成,具体来讲就是将分散在不同来源的数据有机地整合到一起的一步,例如宽表整合。其中要考虑三个问题:实体识别、数据冗余和数据值冲突检测与处理。

3、 数据变换:通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。其中平滑可以用分箱、聚类和回归来实现数据泛化过程即概念分层,将低层次的数据提炼到更高一级的概念层次中规范化又有最大最小规范化、0-值规范化和小数定标规范化。此外还可以构造新的属性来使数据集成。

4、 数据归约:数据挖掘时往往数据量非常大,在少量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,并结果与归约前结果相同或几乎相同。此类技术主要有如下几类:数据方聚集、维规约(检测并删除不相关、弱相关或冗余的属性或维)、数据压缩(小波或傅立叶变换以及主成份分析)等。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值