常用的分布式计算引擎

记录一下,作为备忘。

常用的分布式计算引擎

多表关联的问题,由于NoSQL数据库主要用于海量存储和单表查询,一般都不支持join,需借助更上层的计算框架来实现多表关联,比如:

计算框架支持数据源执行效率
Hive本地文件、HDFS、HBase,通过第三方工具也能支持MongoDBHive-on-MR的效率是很差的,3条记录的表select count(*)花了18s!而且Hive2自己也不推荐再用Hive-on-MR了,而是用Hive-on-spark或Hive-on-Tez
Spark本地文件、HDFS、HBase,通过第三方工具支持MongoDB、CassandraMR之外另辟蹊径的准实时计算框架。数据量超过百万行后的效率优于关系数据库(RDB);10w以内的效率虽然比RDB慢,但也在一个数量级内。
TezHDFS与Hive结合使用,仍基于MR框架,但做了作业的裁剪和合并,减少HDFS读写,据说比优化前的MR效率提升百倍。

几种计算框架之间的关系如下图所示:

在这里插入图片描述

MR和Spark是两种不同的底层计算框架,Tez是对MR的优化,Hive是一个高层的计算框架,负责将SQL翻译成不同的底层计算模型(目前能翻译为MR、Tez、Spark三种计算模型),SparkSQL和Hive是同级的计算框架(事实上,SparkSQL的开发时间先于Hive-on-Spark),如其名字所表明的,其只能将SQL翻译为Spark计算模型。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Java引入分布式搜索引擎elasticsearch是为了解决现代大数据环境下的搜索需求。随着互联网的快速发展,人们对搜索数据量的要求越来越高,传统的关系型数据库已经无法满足这种需求。因此,elasticsearch作为一种分布式搜索引擎,能够帮助我们快速高效地处理大规模数据的搜索问题。 Java作为一种跨平台的编程语言,具有广泛的应用和强大的生态圈,因此选择Java来引入elasticsearch是非常合适的。Java提供了丰富的API和框架,与elasticsearch的交互也是通过Java API来实现的,这样我们可以方便地在Java应用中集成elasticsearch,并利用Java的高性能和可扩展性来处理搜索请求。 通过使用Java引入elasticsearch,我们可以快速地构建一个高性能的分布式搜索引擎。elasticsearch采用了分布式架构和多节点部署的方式,可以实现数据的水平扩展和负载均衡,从而提高搜索的效率和吞吐量。Java提供了丰富的并发编程工具和分布式计算框架,可以方便地与elasticsearch集群进行交互和数据处理,使我们可以更好地利用分布式环境的优势。 另外,Java作为一种常用的编程语言,在开发人员中具有广泛的应用基础和开发经验。通过使用Java引入elasticsearch,我们可以利用已有的Java开发技能来构建和维护搜索引擎,减少学习成本和系统迁移成本。 综上所述,通过引入elasticsearch这一分布式搜索引擎,利用Java的优势和丰富的应用生态圈,我们可以构建一个高性能、可扩展的分布式搜索系统,满足现代大数据环境下的搜索需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值