Impala
文章平均质量分 69
AllenGd
人生之奋斗,其苦无穷,其乐无穷。
展开
-
impala 时间日期函数全解
【代码】impala 时间日期函数全解。原创 2023-10-18 11:19:56 · 2334 阅读 · 0 评论 -
SQL截取重复字符且该是最后字符之前的数据
场景:A表与B表存在两个系统,由于某种原因两个系统订单号命名规则不同,A表订单号order_no为ZM22072592228155;B表订单号order_code为ZM22072592228155、ZM22072592228155Z、ZM22072592228155Z、ZM22072592228155ZZZ;问题:订单号的长度不确定,并不是我举例"ZM22072592228155、ZM22072592228155Z、ZM22072592228155Z、ZM22072592228155ZZZ"这样固定长度。原创 2022-09-05 13:47:26 · 751 阅读 · 0 评论 -
impala取重复数据时间最新的一条(分组聚合)
场景:假如你在网上买了一台空调,生成一个订单号xxxxxxx,该订单号有两个物料(空调内机和空调外机),在快递员送货时,我们只看该订单最终完成时间,也就是说,假如先送的空调内机,时间为2022-08-23 15:54:30,空调外机送达时间为2022-08-24 10:30:07,我们要的时间就是2022-08-24 10:30:07。知识点:row_number() over (partition by)问题:订单并非像我举例中的有两条,有的订单可能有十几条。...原创 2022-08-23 15:59:32 · 1021 阅读 · 0 评论 -
IMPALA截取某个字符之前的数据
场景:A表与B表存在两个系统,由于某种原因两个系统订单号命名规则不同,A表订单号order_no为XM22072592228155;B表订单号order_no为XM22072592228155_S01;客户想要通过订单号关联A、B表,获得B表中的某些字段数据。问题:订单号的长度不确定,并不是我举例"XM22072592228155"这样固定长度。解决方案:截取B表订单号"_S01"之前的字符跟A表进行匹配。原创 2022-08-23 15:41:19 · 1327 阅读 · 0 评论 -
Impala元数据相关的问题
以下是常见的元数据相关的问题,基本都跟元数据的生命周期有关: 同样的查询,为什么第一次运行比后面几次运行都要慢很多? 在 Hive 中建了个新表,但在 Impala 中不可见,如何解决? 在 Hive 中建了个新的函数,但在 Impala 中不可见,如何解决? HUE中使用 Impala Editor 时,为什么有些 View 被显示成了表? Invalidate metadata 和 Refresh语句有什么区别?各有什么应用场景? FAQ1 同样的查原创 2020-10-15 13:44:51 · 711 阅读 · 0 评论 -
将同一id多行数据合并到一行
声明:数据库为impala需求:1、3个数据源有一个相同的字段“batch_no”,根据此相同字段将3个数据源中的数据放到一个报表展示2、其中需展示的”所属账期“字段数据源中没有,根据数据源中的账期开始日和账期结束日判断,开始日取最早日期,结束日取最晚日期所属账期:账期最早2020-05-20 00:00:00,账期最晚2020-07-10 00:00:00所属账期就是202005/202006/202007或者202005~2020073、其中某系字段例如“发票号”“凭证号”“原创 2020-10-13 16:55:10 · 11178 阅读 · 0 评论 -
impala实战篇
第1章 impala基本概念1 什么是impalaCloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。基于Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。是CDH平台首选的PB级大数据实时查询分析引擎。1.1 Impala的优缺点1.1.1 优点基于内存运算,不需要把中间结果写入磁盘,省掉了大量的I/O开销 无需转换MapReduce,直接访问存储在HDFS,HBase中的数据进行作业调度,速度快。 使用了支持原创 2020-06-03 15:36:57 · 2005 阅读 · 0 评论 -
impala理论篇之七:impala、hive、hbase对比(主要是impala vs hive)
1. 什么是实时分析(在线查询)系统?大数据领域里面,实时分析(在线查询)系统是最常见的一种场景,通常用于客户投诉处理,实时数据分析,在线查询等等过。因为是查询应用,通常有以下特点:a. 时延低(秒级别)。b. 查询条件复杂(多个维度,维度不固定),有简单(带有ID)。c. 查询范围大(通常查询表记录在几十亿级别)。d. 返回结果数小(几十条甚至几千条)。e. 并发数要求高(几百上千同时并发)。f. 支持SQL(这个业界基本上达成共识了,原因是很难找到一个又会数据分析,还能写JA原创 2020-06-03 14:58:34 · 1954 阅读 · 0 评论 -
impala理论篇之六:查询的执行流程
Impala如何执行查询下面这个图表示impala在Hadoop集群中所处的位置:Impala由以下组件组成:Clients-HUE、ODBC clients、JDBC clients和impala shell都可以与impala进行交互,这些接口都可以用在impala的数据查询以及对impala的管理。 Hive Metastore-存储impala可以访问数据的元数据。例如:这些数据可以让impala知道哪些数据库以及数据库的结构是可以访问的,当你创建、删除、修改数据库对象或者加载数据原创 2020-06-03 14:47:03 · 3743 阅读 · 2 评论 -
impala理论篇之五:Impala核心组件
Impala核心组件1.Impala daemon(impalad)Impala的核心组件,是运行在各个节点上面的impalad这个守护进程(impala daemon),与DataNode运行在同一节点上,它负责读写数据文件,接收从impala-shell、hue、jdbc、odbc等接口发送的查询请求(接收查询请求的Impalad为Coordinator,Coordinator通过JNI调用java前端解释SQL查询语句,生成查询计划树,再通过调度器把执行计划分发给具有相应数据的其它Impala原创 2020-06-03 14:37:28 · 1624 阅读 · 0 评论 -
impala理论篇之四:Impala支持的文件格式
Impala支持的文件格式Impala 支持几种熟悉的 Apache Hadoop 中使用的文件格式。Impala 可以加载或查询其他 Hadoop 组件如 Pig 或 MapReduce 产生的数据文件,并且 Impala 产生的数据文件也可以被其他组件使用。Impala 表使用的文件格式具有重要的性能意义。一些文件格式包括压缩支持,会影响到硬盘上数据的大小,因此,也影响反序列化数据时所需的 I/O 和 CPU 资源的数量。因为查询通常以移动和解压缩数据开始,所需的 I/O 和 CPU 资源是查询原创 2020-06-03 14:33:52 · 2899 阅读 · 0 评论 -
impala理论篇之三:impala介绍
简介Impala是Cloudera公司主导开发的新型查询系统,是Google Dremel的开源实现。它提供SQL语义,能够查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但是由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性;相比之下,Impala的最大特点也是最大卖点就是它的快速。在介绍Impala之前需要先介绍Google的Dremel系统,因为Impala最开始是参照 Dremel系统进行设计的。原创 2020-06-03 14:31:32 · 1361 阅读 · 0 评论 -
impala理论篇之二:MPP 与 Hadoop是什么关系
MPP 与 Hadoop是什么关系?1. hadoop(hive)跟mpp的本质区别是什么,这个有的时候界限很模糊,比如说存储,如果我把mpp的存储架在hdfs上,那存储模型就没有区别了,所以地下我打算还是用比较传统的认知来作区别。2. hive跟mpp的存储模型不一样,hive用的hdfs,而mpp需要自己做切分,自己做切分就带来动态调整的问题,hdfs的扩展是通过元数据来做的,他有中心节点用来存元数据,在加入新的节点的时候,只需要修改元数据就可以了,所以hdfs的扩展能力是受到管理元数据那台机器原创 2020-06-03 14:29:24 · 1272 阅读 · 2 评论 -
impala理论篇之一:相关背景知识介绍
Apache Impala是由Cloudera开发并开源的一款基于HDFS/Hbase的MPP SQL引擎,是Google Dremel的开源实现。在分析Impala架构、原理之前,先介绍一下相关背景知识。一、SMP、NUMA、MPP体系结构介绍从系统架构来看,目前的商用服务器大体可以分为三类,即对称多处理器结构 (SMP : Symmetric Multi-Processor) ,非一致存储访问结构 (NUMA : Non-Uniform Memory Access) ,以及海量并行处理结构原创 2020-06-03 14:27:22 · 496 阅读 · 4 评论