大数据知识二-大数据组件

本文介绍了大数据领域的几个关键组件,包括离线计算的Hive、Impala和Spark SQL,以及流式计算的Storm和Spark Streaming。Hive提供简单的SQL查询,适合非实时批处理;Impala提供更快的实时交互式查询;Spark SQL在性能上优于Hive;Storm适合低延迟的实时响应计算;Spark Streaming则处理小批量数据,实现秒级响应。根据实时性需求,选择合适的组件至关重要。
摘要由CSDN通过智能技术生成
  1. 离线计算组件

1.1 hive 
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。但是在转换为MapReduce的计算过程中,计算速度比较慢,适合于非实时性的要求的计算。 
1.2 impala 
impala是Cloudera公司开发的一套大数据计算引擎,它在功能作用上类似hive,但是impala的内部计算模式并没有采用Hive+MapReduce批处理模式,而是通过使用与商用并行关系数据库中类似的分布式查询引擎,impala是基于内存计算,对内存的要求相比于hive+MapReduce模式会更高些。在对大数据量查询时,impala会比hive更能及时的响应返回结果。 据说Impala在性能上比Hive高出3~30倍。 
所以Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询,Impala给数据分析人员提供了快速实验、验证想法的大数据分析工具。 
1.3 spark SQL 
sparkSQL 是spark处理结构化数据的库,它是一种新的计算引擎,它在功能作用上类似hive和impala。spark扩充了的MapReduce计算模型,MapReduce通常将中间结果放到磁盘上,所以与磁盘交互比较多,性能上相对于差些,而Spark是基于内存并行大数据框架,中间结果通常存放在内存,相比于MapReduce来说,迭代数据计算的Spark效率会更高些。 
据说在计算性能上比hive高出10~100倍。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值