大数据预处理之数据转换

最新推荐文章于 2024-05-11 15:31:43 发布

QYUooYUQ

最新推荐文章于 2024-05-11 15:31:43 发布

阅读量5.9k

点赞数 1

分类专栏：大数据文章标签：大数据程序员编程语言编程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dsdaasaaa/article/details/93747146

版权

数据转换就是将数据进行转换或归并，从而构成一个适合数据处理的描述形式。数据转换包含以下处理内容。

1）平滑处理

帮助除去数据中的噪声，主要技术方法有 Bin 方法、聚类方法和回归方法。

2）合计处理

对数据进行总结或合计操作。例如，每天的数据经过合计操作可以获得每月或每年的总额。这一操作常用于构造数据立方或对数据进行多粒度的分析。

3）数据泛化处理

用更抽象（更高层次）的概念来取代低层次或数据层的数据对象。

例如，街道属性可以泛化到更高层次的概念，如城市、国家，数值型的属性，如年龄属性，可以映射到更高层次的概念，如年轻、中年和老年。

4）规格化处理

将有关属性数据按比例投射到特定的小范围之中。例如，将工资收入属性值映射到 0 到 1 范围内。

5）属性构造处理

根据已有属性集构造新的属性，以帮助数据处理过程。

下面将着重介绍规格化处理和属性构造处理。

规格化处理就是将一个属性取值范围投射到一个特定范围之内，以消除数值型属性因大小不一而造成挖掘结果的偏差，常常用于神经网络、基于距离计算的最近邻分类和聚类挖掘的数据预处理。

对于神经网络，采用规格化后的数据不仅有助于确保学习结果的正确性，而且也会帮助提高学习的效率。对于基于距离计算的挖掘，规格化方法可以帮助消除因属性取值范围不同而影响挖掘结果的公正性。

下面介绍常用的3种规格化方法。

1. 最大最小规格化方法

该方法对被初始数据进行一种线性转换。

例如，假设属性的最大值和最小值分别是 98 000 元和 12 000 元，利用最大最小规格化方法将“顾客收入”属性的值映射到 0~1 的范围内

最低0.47元/天解锁文章

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
大数据预处理之数据转换

数据转换就是将数据进行转换或归并，从而构成一个适合数据处理的描述形式。数据转换包含以下处理内容。1）平滑处理帮助除去数据中的噪声，主要技术方法有 Bin 方法、聚类方法和回归方法。2）合计处理对数据进行总结或合计操作。例如，每天的数据经过合计操作可以获得每月或每年的总额。这一操作常用于构造数据立方或对数据进行多粒度的分析。3）数据泛化处理用更抽象（更高层次）的概念来取代低层...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。