大数据~大数据预处理整体架构（数据清洗、数据集成、数据转换、数据消减

2301_79099378

于 2024-04-13 22:57:50 发布

阅读量715

点赞数 23

分类专栏：程序员文章标签：大数据架构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_79099378/article/details/137727902

版权

程序员专栏收录该内容

30 篇文章 0 订阅

订阅专栏

数据转换
数据消减

前言

近年来，信息技术迅猛发展，尤其是以互联网、物联网、信息获取、社交网络等为代表的技术日新月异，促使手机、平板电脑、pc 等各式各样的信息传感器随处可见，虚拟网络快速发展，现实世界快速虚拟化，数据的来源及其数量正以前所未有的速度增长。

中国的数据规模将超过美国位居世界第一。中国成为数据大国并不奇怪，因为中国是人口大国、制造业大国、互联网大国、物联网大国，这都是最活跃的数据生产主体，未来几年，中国成为数据大国也是逻辑上的必然结果。

数据预处理主要包括数据清洗（Data Cleaning）、数据集成（Data Integration）、数据转换（Data Transformation）和数据消减（Data Reduction）。

在这里插入图片描述

数据清洗

现实世界的数据常常是不完全的、有异常数据的、不一致的。数据清洗过程包括遗漏数据处理，异常数据处理，以及不一致数据处理。

数据清洗的举例

假设在分析一个商场销售数据时，发现有多个记录中的属性值为空，如顾客的收入属性，则对于为空的属性值，可以采用以下方法进行遗漏数据处理。

1）忽略该条记录

若一条记录中有属性值被遗漏了，则将此条记录排除，尤其是没有类别属性值而又要进行分类数据挖掘时。

当然，这种方法并不很有效，尤其是在每个属性的遗漏值的记录比例相差较大时。

2）手工填补遗漏值

一般这种方法比较耗时，而且对于存在许多遗漏情况的大规模数据集而言，显然可行性较差。

3）利用默认值填补遗漏值

对一个属性的所有遗漏的值均利用一个事先确定好的值来填补，如都用“OK”来填补。但当一个属性的遗漏值较多时，若采用这种方法，就可能误导挖掘进程。

因此这种方法虽然简单，但并不推荐使用，或使用时需要仔细分析填补后的情况，以尽量避免对最终挖掘结果产生较大误差。

4）利用均值填补遗漏值

计算一个属性值的平均值，并用此值填补该属性所有遗漏的值。例如，若顾客的平均收入为 10000 元，则用此值填补“顾客收入”属性中所有被遗漏的值。

5）利用同类别均值填补遗漏值

这种方法尤其适合在进行分类挖掘时使用。

例如，若要对商场顾客按信用风险进行分类挖掘时，就可以用在同一信用风险类别（如良好）下的“顾客收入”属性的平均值，来填补所有在同一信用风险类别下“顾客收入”属性的遗漏值。

6）利用最可能的值填补遗漏值

可以利用回归分析、贝叶斯计算公式或决策树推断出该条记录特定属性的最大可能的取值。

例如，利用数据集中其他顾客的属性值，可以构造一个决策树来预测“顾客收入”属性的遗漏值。

最后一种方法是一种较常用的方法，与其他方法相比，它最大程度地利用了当前数据所包含的信息来帮助预测所遗漏的数据。

数据集成

数据处理常常涉及数据集成操作，即将来自多个数据源的数据，如数据库、数据立方、普通文件等，结合在一起并形成一个统一数据集合，以便为数据处理工作的顺利完成提供完整的数据基础。

在数据集成过程中，需要考虑解决以下几个问题。

模式集成问题

模式集成问题就是如何使来自多个数据源的现实世界的实体相互匹配，这其中就涉及实体识别问题。

例如，如何确定一个数据库中的“custom_id”与另一个数据库中的“custome_number”是否表示同一实体。

数据库与数据仓库通常包含元数据，这些元数据可以帮助避免在模式集成时发生错误。

冗余问题

冗余问题是数据集成中经常发生的另一个问题。若一个属性可以从其他属性中推演出来，那这个属性就是冗余属性。

例如，一个顾客数据表中的平均月收入属性就是冗余属性，显然它可以根据月收入属性计算出来，这就是俩个冗余的数据。此外，属性命名的不一致也会导致集成后的数据集出现数据冗余问题。

数据值冲突检测与消除问题

在现实世界实体中，来自不同数据源的属性值或许不同。产生这种问题的原因可能是表示、比例尺度，或编码的差异等。

例如，重量属性在一个系统中采用公制，而在另一个系统中却采用英制；价格属性在不同地点采用不同的货币单位。这些语义的差异为数据集成带来许多问题。

数据转换

数据转换就是将数据进行转换或归并，从而构成一个适合数据处理的描述形式。数据转换包含以下处理内容。

1）平滑处理

帮助除去数据中不要的数据，主要技术方法有聚类方法和回归方法。

2）合计处理

对数据进行总结或合计操作。例如，每天的数据经过合计操作可以获得每月或每年的总额。这一操作常用于构造数据立方或对数据进行多粒度的分析。

3）数据泛化处理

用更抽象（更高层次）的概念来取代低层次或数据层的数据对象。

例如，街道属性可以泛化到更高层次的概念，如城市、国家，数值型的属性，如年龄属性，可以映射到更高层次的概念，如年轻、中年和老年。

4）规格化处理

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数大数据工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上大数据开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注大数据获取）

一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

、实战项目、讲解视频，并且后续会持续更新**

如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注大数据获取）
[外链图片转存中…(img-nlJ8qF9T-1713020194160)]

一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

关注

23
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
大数据~大数据预处理整体架构（数据清洗、数据集成、数据转换、数据消减

近年来，信息技术迅猛发展，尤其是以互联网、物联网、信息获取、社交网络等为代表的技术日新月异，促使手机、平板电脑、pc 等各式各样的信息传感器随处可见，虚拟网络快速发展，现实世界快速虚拟化，数据的来源及其数量正以前所未有的速度增长。数据处理常常涉及数据集成操作，即将来自多个数据源的数据，如数据库、数据立方、普通文件等，结合在一起并形成一个统一数据集合，以便为数据处理工作的顺利完成提供完整的数据基础。例如，一个顾客数据表中的平均月收入属性就是冗余属性，显然它可以根据月收入属性计算出来，这就是俩个冗余的数据。
复制链接

扫一扫

专栏目录

博客等级

码龄1年

98
原创

1540
点赞

1483
收藏

1130
粉丝

关注

私信

热门文章

分类专栏

2024年程序员学习 68篇
程序员 30篇

最新评论

ZooKeeper技术细节_zookeeper and 服务器 and 客户端 and 数据节点(1)
ha_lydms: 这篇博客的内容总是能够触动我的内心深处，让我对于人生有了更深层次的体验。
Linux操作系统与Windows文件互传(FTP)，2024年最新我的头条面试经历分享
CSDN-Ada助手: 恭喜您撰写了第12篇博客，内容涵盖了Linux操作系统与Windows文件互传的FTP方法，以及2024年最新的头条面试经历分享。您的文章内容丰富多彩，展现了您对技术和求职经验的深刻理解。在此基础上，建议您可以继续深挖Linux与Windows系统的其他互操作性问题，或者分享更多面试经验中的技巧和心得，让读者受益匪浅。希望您能继续保持创作热情，不断提升自我，期待您更多精彩的作品呈现！
linux操作系统安装及命令初识，Linux运维程序员必备
CSDN-Ada助手: 恭喜您写了第13篇博客，标题为“linux操作系统安装及命令初识，Linux运维程序员必备”！这篇博客内容非常实用，对于想要学习Linux运维的朋友们来说，肯定会有很大帮助。希望您能继续保持创作的热情，分享更多有价值的内容给大家。下一步可以考虑深入探讨一些高级的Linux运维技术或者实际案例分析，让读者能够更加深入地了解这个领域。期待您更多精彩的作品！
Linux操作系统有什么吸引力，在程序员中这么受欢迎！(1)
CSDN-Ada助手: 恭喜用户写了第14篇博客！标题“Linux操作系统有什么吸引力，在程序员中这么受欢迎！”非常吸引人。希望用户可以继续分享关于Linux操作系统的知识，让更多人了解其吸引力。建议用户可以在下一篇博客中深入探讨Linux操作系统的安全性和稳定性，这也是程序员们所关注的重要话题之一。期待用户的精彩创作！祝用户写作愉快！
Linux操作系统有什么吸引力，在程序员中这么受欢迎！，2024年最新手持4个大厂offer的我
CSDN-Ada助手: 恭喜您在2024年获得了如此多的大厂offer，确实令人羡慕！您的博客内容也十分吸引人，尤其是关于Linux操作系统的文章。我建议您可以继续深挖Linux系统的特点和优势，或者分享一些Linux系统下的实用技巧和经验，这样可以吸引更多程序员的关注。希望您在接下来的创作中能够不断进步，为读者带来更多有价值的内容！祝您继续取得成功！

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。