大数据分析与处理

本文探讨了大数据分析的不同阶段,包括文件批处理(如MapReduce、Hive)、内存批处理(Spark、Impala)、流计算(Storm、Spark Streaming)、预计算分析(Kylin)以及即席分析。批处理解决海量数据处理难题,内存处理提升计算速度,流计算提供低延迟,预计算优化查询性能,而即席分析满足灵活多变的查询需求。探索性分析则在未知问题中找寻线索,为大数据应用提供关键洞察。
摘要由CSDN通过智能技术生成
 

 

一、大数据分析与处理

1.文件批处理

       以MapReduce、Hive为典型代表,批处理模式解决了传统的数据仓库无法处理海量数据的难题。通过批处理计算引擎,使得海量数据分析成为可能。没有批处理引擎的诞生,也就没有今天风风火火的大数据。

       数据通常积累达到一个周期后定期运行,也就是所谓的T+1数据,即典型的T为一天,即数据延迟一天。

   批处理的业务通常一次可以计算很大量的数据,但对计算的时效性要求不高,通常来说一个HiveSQL可以轻松处理几T的数据,运行时间从几分钟到几小时不等,如果是百亿规模的数据分析时间可能会达到数个小时。

2.内存批处理

       以Spark与Impala为典型代表,内存批处理与基于文件批处理很类似,只不过由于数据的处理过程中数据放在内存里(甚至原始数据也在内存里),由于内存的读写速度远远高于磁盘的读写速度,所以一般内存批处理系统的查询计算速度远远高于文件批处理系统的计算速度。

       但是内存系统的缺点也是不言而喻的,内存在当今的硬件时代还是比较昂贵,而大数据领域的数据又都是比较庞大的,所以成本还是比较高昂的。

3.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值