R语言 数据集成

                                                                               

关注微信公共号:小程在线

关注CSDN博客:程志伟的博客

 

在 R 中数据集成是指将存储在两个数据框中的数据以关键字为依据,以行为单位做列向合并,可通过函数 merge()实现,基本书写形式为 merge(数据框 1,数据框 2,by=’关键字’),合并后的新数据自动按关键字取值的大小升序排列。


1) 实体识别

同名异义    异名同义    单位不统一

2)数据变换

2.1简单函数变换

    是对原始数据进行某些数学函数变换,常用的包括平方、开方、 取对数、差分运算等。

2.2规范化
最小-最大规范化是对原始数据的线性变换, 将数值值映射到[0,1]之间

零-均值规范化也叫标准差标准化,经过处理的数据的均值为 0,标准差为 1

 

 

小数定标规范化通过移动属性值的小数位数,将属性值映射到[-1,1]之间,移动的小数位数取决于属性值绝对值的最大值

2.3 连续属性离散化

 

 

 

 

 

 

 

等宽法 
 

 

 

 

 

 

等频法 

 

基于聚类分析的方法

 

 
2.4构建新的属性
 
 
3) 数据规约
   3.1 意义:
   1.降低无效、错误数据对建模的影响,提高建模的准确性
   2.少量且具代表性的数据将大幅缩减数据挖掘所需的时间
   3.降低储存数据的成本
   3.2 目的:
   寻找出最小的属性
子集并确保新数据子集的概率分布尽可能接近原来数据集的概率分布

   3.3常见方法

 

   合并属性  逐步向前选择  逐步向后删除  决策树  主成分分析

4)  数值规约

  直方图  聚类  抽样  参数回归

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值