关注微信公共号:小程在线
关注CSDN博客:程志伟的博客
在 R 中数据集成是指将存储在两个数据框中的数据以关键字为依据,以行为单位做列向合并,可通过函数 merge()实现,基本书写形式为 merge(数据框 1,数据框 2,by=’关键字’),合并后的新数据自动按关键字取值的大小升序排列。
1) 实体识别
同名异义 异名同义 单位不统一
2)数据变换
2.1简单函数变换
是对原始数据进行某些数学函数变换,常用的包括平方、开方、 取对数、差分运算等。
2.2规范化
最小-最大规范化是对原始数据的线性变换, 将数值值映射到[0,1]之间
零-均值规范化也叫标准差标准化,经过处理的数据的均值为 0,标准差为 1
小数定标规范化通过移动属性值的小数位数,将属性值映射到[-1,1]之间,移动的小数位数取决于属性值绝对值的最大值
2.3 连续属性离散化
等宽法
等频法
基于聚类分析的方法
2.4构建新的属性
3) 数据规约
3.1 意义:
1.降低无效、错误数据对建模的影响,提高建模的准确性
2.少量且具代表性的数据将大幅缩减数据挖掘所需的时间
3.降低储存数据的成本
3.2 目的:
2.少量且具代表性的数据将大幅缩减数据挖掘所需的时间
3.降低储存数据的成本
3.2 目的:
寻找出最小的属性
子集并确保新数据子集的概率分布尽可能接近原来数据集的概率分布
子集并确保新数据子集的概率分布尽可能接近原来数据集的概率分布
3.3常见方法
合并属性 逐步向前选择 逐步向后删除 决策树 主成分分析
4) 数值规约
直方图 聚类 抽样 参数回归