大数据计算生态之数据计算(二)

本文深入探讨大数据计算生态中的即席查询和图查询计算引擎,包括Impala、Presto和ClickHouse在即席查询中的应用,以及GraphX、Giraph和GraphLab在图查询领域的功能。这些组件在大数据处理的不同场景中发挥关键作用,提供高性能、低延迟的解决方案。
摘要由CSDN通过智能技术生成

 

 

导读:大数据计算发展至今,已经形成了一个百花齐放的大数据生态,通用计算、定制开发,批量处理、实时计算,关系查询、图遍历以及机器学习等等,我们都可以找到各种对应的计算引擎来协助我们处理这些任务。本系列文章拟以大数据平台从低到高的层次为主线,梳理整个大数据计算生态组件及其功能。

在[大数据计算生态之数据计算(一)]中介绍了批处理和流处理中的各个存储组件的分类及功能。本文将详细介绍计算层的另外两种场景的计算引擎--即席查询和图查询。

本文经授权转自公众号DLab数据实验室

作者 | 小舰

出品 | DLab数据实验室(ID:rucdlab)

 

 

 


 

 

即席(Ad-Hoc)查询指的是介于实时和批处理之间的一种查询处理,如一些交互式的数据探查任务,需要秒级或分钟级的较快的响应时间。图查询是基于图模型进行的数据查询,图查询涉及到更多的是迭代类的操作,常见的图算法如路径搜索算法、中心性算法以及社群发现算法等,这些算法在公安系统和银行金融领域中的打击犯罪团伙、金融欺诈、信用卡盗刷等领域有着重要的应用。

 

 

即席查询(Ad-Hoc)

 

 

1.Impala

Impala是用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询引擎。与其他Hadoop的SQL引擎相比,它提供了查询的高性能和低延迟。它提供了访问存储在Hadoop分布式文件系统中的数据的最快方法。与Hive依赖于MapReduce计算不同,Impala采用的是基于内存的计算,因此可以更快地完成计算任务。

上图是Impala的结构图,Impala主要包括三大核心组件:

  • Impala Daemon:impalad是Impala的核心进程,运行在所有的数据节点上,可以读写数据,并接收客户端的查询请求,并行执行来自集群中其他节点的查询请求,将中间结果返回给调度节点。调用节点将结果返回给客户端。用户在impala集群上的某个节点提交数据处理请求 则该节点称为coordinator node(协调器节点),其他的集群节点传输其中的处理的部分数据到该coordinator node,coordinator node负责构建最终的结果数据返回给用户;impala 支持在提交任务的时候(采用JDBC ,ODBC 方式) 采用round-robin算法来实现负载均衡,将任务提交到不同的节点上;impalad 进程通过持续的和statestore 通信来确认自己所在的节点是否健康 和是否可以接受新的任务请求;

  • Impala Statestore(主要优化点,线程数):状态管理进程,定时检查The Impala Daemon的健康状况,协调各个运行impalad的实例之间的信息关系,Impala正是通过这些信息去定位查询请求所要的数据,进程名叫做 statestored,在集群中只需要启动一个这样的进程,如果Impala节点由于物理原因、网络原因、软件原因或者其他原因而下线,Statestore会通知其他节点,避免查询任务分发到不可用的节点上;

  • Impala Catalog Service(元数据管理和元存储):元数据管理服务,进程名叫做catalogd,将数据表变化的信息分发给各个进程。接收来自statestore的所有请求,每个Impala节点在本地缓存所有元数据。当处理极大量的数据和/或许多分区时,获得表特定的元数据可能需要大量的时间。因此,本地存储的元数据缓存有助于立即提供这样的信息。当表定义或表数据更新时,其他Impala后台进程必须通过检索最新元数据来更新其元数据缓存,然后对相关表发出新查询;

     

Impala的优点是支持JDBC/ODBC远程访问,支持SQL查询,快

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值