Impala
lipeng_bigdata
这个作者很懒,什么都没留下…
展开
-
Impala简介(整理)
Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。原创 2016-04-03 16:39:46 · 5974 阅读 · 0 评论 -
Impala之Impalad进程
Impalad进程是Impala的核心组件,它是运行在集群中每个Impala节点上的一个守护进程。它主要负责:1、从HDFS或HBase中读、写数据;2、接收来自JDBC、Impala Shell等客户端命令;3、并行化执行查询语句,分发到Impala集群中其它节点,并将查询中间结果汇报到中央协调节点Impalad进程;4、定时与statestore通讯,以确定哪些节点是健康的,可以接受新的工作;5、接收catalogd守护进程(Impala 1.2中引入)的广播,广播信息包括集群中任意Impala节点上创原创 2016-04-03 17:06:44 · 4237 阅读 · 0 评论 -
Impala之StateStore进程
StateStore是用来检查Impala集群中所有节点守护进程Impalad健康状况的守护进程,并且将它的发现持续性的发送给这些Impala守护进程。原创 2016-04-03 17:29:00 · 4362 阅读 · 0 评论 -
Impala之Catalogd进程
Catalogd进程是Impala中用来传递Impala SQL导致的元数据变化的组件,它把这些变化传递给集群中所有的节点。一个集群中只需要一个节点上有这个守护进程,因为请求是通过Statestore传递的,因此Statestored和Catalogd 服务应当运行在同一节点上。原创 2016-04-03 21:59:32 · 3161 阅读 · 0 评论 -
Impala之创建外部表
Impala中外部(external)表即数据已经存在于HDFS上的一组文件里,只需要把Impala表指向包含这些文件的目录即可。原创 2016-04-03 22:15:09 · 6042 阅读 · 2 评论 -
Impala之加载HBase数据
Impala如何加载HBase数据?本文将为大家进行详细介绍Impala加载HBase数据的步骤。原创 2016-04-05 15:38:43 · 5378 阅读 · 0 评论 -
Impala、Hive性能简单对比测试
Impala、Hive性能简单对比测试原创 2016-04-05 16:37:36 · 6145 阅读 · 2 评论