大数据学习方法：大数据采集，大数据分析，大数据存储就该这样学！

最新推荐文章于 2024-06-16 19:39:54 发布

铁拳虎

最新推荐文章于 2024-06-16 19:39:54 发布

阅读量6.6k

点赞数 3

分类专栏：大数据学习大数据开发大数据入门数据分析 Hadoop Kafka 大数据大数据技术人工智能 spark Linux 文章标签：大数据大数据学习大数据开发大数据技术大数据入门

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/juan189/article/details/87981254

版权

大数据采集

01

—

概览

02

—

相关延展

系统日志数据的采集

Scribe是Facebook开源的日志收集系统，在Facebook内部已经得到大量的应用。它够从各种日志源上收集日志，存储到一个中央存储系统上，以便于进行集中的统计分析处理。 Scribe为日志的“分布式收集，统一处理”提供了一个可扩展的、高容错的方案。（老师收学生信息表，需要班长代理收集的例子）。

Chukwa提供了一个对大数据量日志类数据采集、存储、分析和展示的全套解决方案和框架，可以用于监控大规模Hadoop 集群的整体运行情况并对它们的日志进行分析（相当于学校内无死角的监控摄像头）。

注：以上两张架构图现在不太理解，当学完第四章再回过头来看，就easy多了。

对大数据的概念都是模糊不清的，大数据是什么，能做什么，学的时候，该按照什么线路去学习，学完往哪方面发展，想深入了解，想学习的同学欢迎加入大数据学习qq群：199427210，有大量干货（零基础以及进阶的经典实战）分享给大家，并且有清华大学毕业的资深大数据讲师给大家免费授课，给大家分享目前国内最完整的大数据高端实战实用学习流程体系。

大数据的未来前景可期，入行的人也非常的多，而如何快速的完成转型，如何快速的进入大数据领域，就需要转型者、小白去进行深刻的思考。

大数据预处理

数据清理通过填写缺失值，光滑噪声数据，识别或删除离群点并解决不一致性来“清理”数据。数据清理的过程主要包括数据预处理、确定清理方法、检验清理方法、执行清理工具和数据归档。同时每个阶段可以再分若干个任务。

数据集成是将来自多个数据源的数据集集成到一起，但集成后的不可避免的会出现数据冗余，原因主要有：代表同一概念的属性在不同数据库中可能具有不同的名字；有些属性可能由于其他属性导出的。数据集成后可以再次进行数据清理、检测和删去由数据集带来的冗余。

数据归约的目的是得到数据集的简化表示。虽然数据集的简化表示比原数据集的规模小得多，但仍然能够产生几乎同样的分析结果。

最低0.47元/天解锁文章

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
大数据学习方法：大数据采集，大数据分析，大数据存储就该这样学！

大数据采集01—概览02—相关延展系统日志数据的采集 Scribe是Facebook开源的日志收集系统，在Facebook内部已经得到大量的应用。它够从各种日志源上收集日志，存储到一个中央存储系统上，以便于进行集中的统计分析处理。 Scribe为日志的“分布式收集，统一处理”提供了一个可扩展的、高容错的方案。（老师收学生信息表，需要班长代理收集的例子）。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。