大数据分析与处理

 

 

一、大数据分析与处理

1.文件批处理

       以MapReduce、Hive为典型代表,批处理模式解决了传统的数据仓库无法处理海量数据的难题。通过批处理计算引擎,使得海量数据分析成为可能。没有批处理引擎的诞生,也就没有今天风风火火的大数据。

       数据通常积累达到一个周期后定期运行,也就是所谓的T+1数据,即典型的T为一天,即数据延迟一天。

   批处理的业务通常一次可以计算很大量的数据,但对计算的时效性要求不高,通常来说一个HiveSQL可以轻松处理几T的数据,运行时间从几分钟到几小时不等,如果是百亿规模的数据分析时间可能会达到数个小时。

2.内存批处理

       以Spark与Impala为典型代表,内存批处理与基于文件批处理很类似,只不过由于数据的处理过程中数据放在内存里(甚至原始数据也在内存里),由于内存的读写速度远远高于磁盘的读写速度,所以一般内存批处理系统的查询计算速度远远高于文件批处理系统的计算速度。

       但是内存系统的缺点也是不言而喻的,内存在当今的硬件时代还是比较昂贵,而大数据领域的数据又都是比较庞大的,所以成本还是比较高昂的。

3.

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值