R语言数据集成

最新推荐文章于 2021-10-17 11:39:07 发布

程志伟

最新推荐文章于 2021-10-17 11:39:07 发布

阅读量1.4k

点赞数

分类专栏： R语言文章标签： r语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c1z2w3456789/article/details/51462141

版权

R语言专栏收录该内容

79 篇文章 41 订阅

订阅专栏

关注微信公共号：小程在线

关注CSDN博客：程志伟的博客

在 R 中数据集成是指将存储在两个数据框中的数据以关键字为依据，以行为单位做列向合并，可通过函数 merge()实现，基本书写形式为 merge(数据框 1,数据框 2,by=’关键字’)，合并后的新数据自动按关键字取值的大小升序排列。

1）实体识别

同名异义异名同义单位不统一

2）数据变换

2.1简单函数变换

是对原始数据进行某些数学函数变换，常用的包括平方、开方、取对数、差分运算等。

2.2规范化
最小-最大规范化是对原始数据的线性变换，将数值值映射到[0,1]之间

零-均值规范化也叫标准差标准化，经过处理的数据的均值为 0，标准差为 1

小数定标规范化通过移动属性值的小数位数，将属性值映射到[-1,1]之间，移动的小数位数取决于属性值绝对值的最大值

2.3 连续属性离散化

等宽法

等频法

基于聚类分析的方法

2.4构建新的属性

3）数据规约

3.1 意义：

1.降低无效、错误数据对建模的影响，提高建模的准确性
2.少量且具代表性的数据将大幅缩减数据挖掘所需的时间
3.降低储存数据的成本
3.2 目的：

寻找出最小的属性
子集并确保新数据子集的概率分布尽可能接近原来数据集的概率分布

3.3常见方法

合并属性逐步向前选择逐步向后删除决策树主成分分析

4) 数值规约

直方图聚类抽样参数回归

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。