大数据分析与处理

最新推荐文章于 2024-09-04 23:50:39 发布

qq_33160722

最新推荐文章于 2024-09-04 23:50:39 发布

阅读量1.2k

点赞数 1

文章标签： spark hadoop lucene 大数据 solr

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33160722/article/details/55802957

版权

本文探讨了大数据分析的不同阶段，包括文件批处理（如MapReduce、Hive）、内存批处理（Spark、Impala）、流计算（Storm、Spark Streaming）、预计算分析（Kylin）以及即席分析。批处理解决海量数据处理难题，内存处理提升计算速度，流计算提供低延迟，预计算优化查询性能，而即席分析满足灵活多变的查询需求。探索性分析则在未知问题中找寻线索，为大数据应用提供关键洞察。

摘要由CSDN通过智能技术生成

一、大数据分析与处理

1.文件批处理

以MapReduce、Hive为典型代表，批处理模式解决了传统的数据仓库无法处理海量数据的难题。通过批处理计算引擎，使得海量数据分析成为可能。没有批处理引擎的诞生，也就没有今天风风火火的大数据。

数据通常积累达到一个周期后定期运行，也就是所谓的T+1数据，即典型的T为一天，即数据延迟一天。

批处理的业务通常一次可以计算很大量的数据，但对计算的时效性要求不高，通常来说一个HiveSQL可以轻松处理几T的数据，运行时间从几分钟到几小时不等，如果是百亿规模的数据分析时间可能会达到数个小时。

2.内存批处理

以Spark与Impala为典型代表，内存批处理与基于文件批处理很类似，只不过由于数据的处理过程中数据放在内存里（甚至原始数据也在内存里），由于内存的读写速度远远高于磁盘的读写速度，所以一般内存批处理系统的查询计算速度远远高于文件批处理系统的计算速度。

但是内存系统的缺点也是不言而喻的，内存在当今的硬件时代还是比较昂贵，而大数据领域的数据又都是比较庞大的，所以成本还是比较高昂的。

3.

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。