Hive使用Impala组件查询

最新推荐文章于 2022-09-29 18:30:52 发布

赵广陆

最新推荐文章于 2022-09-29 18:30:52 发布

阅读量3.2k

点赞数

分类专栏： hive 文章标签： hive big data

本文链接：https://blog.csdn.net/ZGL_cyy/article/details/115582108

版权

hive 专栏收录该内容

37 篇文章 7 订阅

订阅专栏

1 Apache Impala简介

impla是个实时的sql查询工具，类似于hive的操作方式，只不过执行的效率极高，号称当下大数据生态圈中执行效率最高的sql类软件
impala来自于cloudera，后来贡献给了apache
impala工作底层执行依赖于hive 与hive共用一套元数据存储。在使用impala的时候，必须保证hive服务是正常可靠的，至少metastore开启。
impala最大的跟hive的不同在于不在把sql编译成mr程序执行编译成执行~~计划数~~（勘误：计划树）。
impala的sql语法几乎兼容hive的sql语句。

impala是一个适用于实时交互查询的sql软件 hive适合于批处理查询的sql软件。通常是两个互相配合。

impala 可以集群部署
- Impalad(impala server):可以部署多个不同机器上，通常与datanode部署在同一个节点方便数据本地计算，负责具体执行本次查询sql的impalad称之为Coordinator。每个impala server都可以对外提供服务。
- impala state store:主要是保存impalad的状态信息监视其健康状态
- impala catalogd :metastore维护的网关负责跟hive 的metastore进行交互同步hive的元数据到impala自己的元数据中。
- CLI:用户操作impala的方式（impala shell、jdbc、hue）
impala 查询处理流程
- impalad分为java前端（接受解析sql编译成执行计划树），c++后端（负责具体的执行计划树操作）
- impala sql---->impalad（Coordinator）---->调用java前端编译sql成计划树------>以Thrift数据格式返回给C++后端------>根据执行计划树、数据位于路径（libhdfs和hdfs交互）、impalad状态分配执行计划查询----->汇总查询结果----->返回给java前端---->用户cli
- 跟hive不同就在于整个执行中已经没有了mapreduce程序的存在

impala集群安装规划
- node-3 ：impalad 、impala state store、impala catalogd、impala-shell
- node-2：impalad
- node-1：impalad
impala安装
- impala没有提供tar包只有rpm包这个rpm包只有cloudera公司
- 要么自己去官网下载impala rpm包和其相关的依赖要么自己制作本地yum源
- 特别注意本地yum源的安装需要Apache server对外提供web服务使得各个机器都可以访问下载yum源
- 在指定的每个机器上根据规划 yum安装指定的服务
- 保证hadoop hive服务正常，开启相关的服务
  - hive metastore hiveserver2
  - hadoop hdfs-site.xml 开启本地读取数据的功能
  - 要把配置文件scp给其他机器重启
- 修改impala配置文件
- 修改bigtop 指定java路径
- 根据规划分别启动对应的impala进程
- 如果出错排查的依据就是去，日志默认都在/var/log/impala
impala集群的启动关闭
- 主节点按照顺序启动以下服务
```
service impala-state-store start
service impala-catalog start
service impala-server start
```
- 从节点
```
service impala-server start
```
- 如果需要关闭impala 把上述命令中start 改为stop
- 通过ps -ef|grep impala 判断启动的进程是否正常如果出错日志是你解决问题的唯一依据。
```
/var/log/impala
```

2 Apache Impala使用

2.1． Impala 基本介绍

impala 是 cloudera 提供的一款高效率的 sql 查询工具，提供实时的查询效果，官方测试性能比 hive(提供转化为MR mapreduce根据) 快 10 到 100 倍，其 sql 查询比 sparkSQL 还要更加快速，号称是当前大数据领域最快的查询 sql 工具，impala 是参照谷歌的新三篇论文（Caffeine–网络搜索引擎、Pregel–分布式图计算、Dremel–交互式分析工具）当中的 Dremel 实现而来，其中旧三篇论文分别是（BigTable，GFS，MapReduce）分别对应我们即将学的 HBase 和已经学过的 HDFS 以及 MapReduce。impala 是基于 hive 并使用内存进行计算，兼顾数据仓库，具有实时，批处理，多并发等优点。

2.2． Impala 与 Hive 关系

impala 是基于 hive 的大数据分析查询引擎，直接使用 hive 的元数据库metadata，意味着 impala 元数据都存储在 hive 的 metastore 当中，并且 impala 兼容 hive 的绝大多数 sql 语法。所以需要安装 impala 的话，必须先安装 hive，保证hive 安装成功，并且还需要启动 hive 的 metastore 服务。 Hive 元数据包含用 Hive 创建的 database、table 等元信息。元数据存储在关系型数据库中，如 Derby、MySQL 等。
客户端连接 metastore 服务，metastore 再去连接 MySQL 数据库来存取元数据。有了 metastore 服务，就可以有多个客户端同时连接，而且这些客户端不需要知道 MySQL 数据库的用户名和密码，只需要连接 metastore 服务即可。nohup hive --service metastore >> ~/metastore.log 2>&1 &Hive 适合于长时间的批处理查询分析，而 Impala 适合于实时交互式 SQL 查询。可以先使用 hive 进行数据转换处理，之后使用 Impala 在 Hive 处理后的结果数据集上进行快速的数据分析。

2.3． Impala 与 Hive 异同

Impala 与 Hive 都是构建在 Hadoop 之上的数据查询工具各有不同的侧重适应面，但从客户端使用来看 Impala 与 Hive 有很多的共同之处，如数据表元数据、ODBC/JDBC 驱动、SQL 语法、灵活的文件格式、存储资源池等。但是 Impala 跟 Hive 最大的优化区别在于：没有使用 MapReduce 进行并行计算，虽然 MapReduce 是非常好的并行计算框架，但它更多的面向批处理模式，而不是面向交互式的 SQL 执行。与 MapReduce 相比，Impala 把整个查询分成一执行计划树，而不是一连串的 MapReduce 任务，在分发执行计划后，Impala 使用拉式获取数据的方式获取结果，把结果数据组成按执行树流式传递汇集，减少的了把中间结果写入磁盘的步骤，再从磁盘读取数据的开销。Impala 使用服务的方式避免每次执行查询都需要启动的开销，即相比 Hive 没了 MapReduce 启动时间。

2.3.1． Impala 使用的优化技术

使用 LLVM 产生运行代码，针对特定查询生成特定代码，同时使用 Inline 的方式减少函数调用的开销，加快执行效率。(C++特性)充分利用可用的硬件指令（SSE4.2）。更好的 IO 调度，Impala 知道数据块所在的磁盘位置能够更好的利用多磁盘的优势，同时 Impala 支持直接数据块读取和本地代码计算 checksum。通过选择合适数据存储格式可以得到最好性能（Impala 支持多种存储格式）。最大使用内存，中间结果不写磁盘，及时通过网络以 stream 的方式传递。

2.3.2．执行计划

Hive: 依赖于 MapReduce 执行框架，执行计划分成
map->shuffle->reduce->map->shuffle->reduce…的模型。如果一个 Query 会被编译成多轮 MapReduce，则会有更多的写中间结果。由于 MapReduce 执行框架本身的特点，过多的中间过程会增加整个 Query 的执行时间。

Impala: 把执行计划表现为一棵完整的执行计划树，可以更自然地分发执行计划到各个 Impalad 执行查询，而不用像 Hive 那样把它组合成管道型的
map->reduce 模式，以此保证 Impala 有更好的并发性和避免不必要的中间 sort 与shuffle。

2.3.3．数据流

Hive: 采用推的方式，每一个计算节点计算完成后将数据主动推给后续节点。
Impala: 采用拉的方式，后续节点通过 getNext 主动向前面节点要数据，以
此方式数据可以流式的返回给客户端，且只要有 1 条数据被处理完，就可以立即
展现出来，而不用等到全部处理完成，更符合 SQL 交互式查询使用。

2.3.4．内存使用

Hive: 在执行过程中如果内存放不下所有数据，则会使用外存，以保证 Query能顺序执行完。每一轮 MapReduce 结束，中间结果也会写入 HDFS 中，同样由于MapReduce 执行架构的特性，shuffle 过程也会有写本地磁盘的操作。
Impala: 在遇到内存放不下数据时，版本 1.0.1 是直接返回错误，而不会利用外存，以后版本应该会进行改进。这使用得 Impala 目前处理 Query 会受到一定的限制，最好还是与 Hive 配合使用。

2.3.5．调度

Hive: 任务调度依赖于 Hadoop 的调度策略。Impala: 调度由自己完成，目前只有一种调度器 simple-schedule，它会尽量满足数据的局部性，扫描数据的进程尽量靠近数据本身所在的物理机器。调度器
目前还比较简单，在 SimpleScheduler::GetBackend 中可以看到，现在还没有考虑
负载，网络 IO 状况等因素进行调度。但目前 Impala 已经有对执行过程的性能统计分析，应该以后版本会利用这些统计信息进行调度吧。

2.3.6．容错

Hive: 依赖于 Hadoop 的容错能力。
Impala: 在查询过程中，没有容错逻辑，如果在执行过程中发生故障，则直
接返回错误（这与 Impala 的设计有关，因为 Impala 定位于实时查询，一次查询
失败，再查一次就好了，再查一次的成本很低）。

2.3.7．适用面

Hive: 复杂的批处理查询任务，数据转换任务。
Impala：实时数据分析，因为不支持 UDF，能处理的问题域有一定的限制，与 Hive 配合使用,对 Hive 的结果数据集进行实时分析。

2.4． Impala 架构

Impala 主要由 Impalad、 State Store、Catalogd 和 CLI 组成。

2.4.1． Impalad

Impalad: 与 DataNode 运行在同一节点上，由 Impalad 进程表示，它接收客
户端的查询请求（接收查询请求的 Impalad 为 Coordinator，Coordinator 通过 JNI 调用 java
前端解释 SQL 查询语句，生成查询计划树，再通过调度器把执行计划分发给具有相应数据的
其它 Impalad 进行执行），读写数据，并行执行查询，并把结果通过网络流式的传送
回给 Coordinator，由 Coordinator 返回给客户端。同时 Impalad 也与 State Store 保
持连接，用于确定哪个 Impalad 是健康和可以接受新的工作。
在 Impalad 中启动三个 ThriftServer: beeswax_server（连接客户端），hs2_server
（借用 Hive 元数据），be_server（Impalad 内部使用）和一个 ImpalaServer 服务。

2.4.2． Impala State Store

Impala State Store: 跟踪集群中的 Impalad 的健康状态及位置信息，由
statestored 进程表示，它通过创建多个线程来处理 Impalad 的注册订阅和与各
Impalad 保持心跳连接，各 Impalad 都会缓存一份 State Store 中的信息，当 State
Store 离线后（Impalad 发现 State Store 处于离线时，会进入 recovery 模式，反复
注册，当 State Store 重新加入集群后，自动恢复正常，更新缓存数据）因为 Impalad
有 State Store 的缓存仍然可以工作，但会因为有些 Impalad 失效了，而已缓存数

据无法更新，导致把执行计划分配给了失效的 Impalad，导致查询失败。

2.4.3． CLI

CLI: 提供给用户查询使用的命令行工具（Impala Shell 使用 python 实现），同
时 Impala 还提供了 Hue，JDBC， ODBC 使用接口。
4.4． Catalogd
Catalogd：作为 metadata 访问网关，从 Hive Metastore 等外部 catalog 中获
取元数据信息，放到 impala 自己的 catalog 结构中。impalad 执行 ddl 命令时通过
catalogd 由其代为执行，该更新则由 statestored 广播。

2.5． Impala 查询处理过程

Impalad 分为 Java 前端与 C++处理后端，接受客户端连接的 Impalad 即作
为这次查询的 Coordinator，Coordinator 通过 JNI 调用 Java 前端对用户的查询 SQL
进行分析生成执行计划树。
Java 前端产生的执行计划树以 Thrift 数据格式返回给 C++后端（Coordinator）（执行计划分为多个阶段，每一个阶段叫做一个 PlanFragment，每一个 PlanFragment 在执
行时可以由多个 Impalad 实例并行执行(有些 PlanFragment 只能由一个 Impalad 实例执行,如
聚合操作)，整个执行计划为一执行计划树）。
Coordinator 根据执行计划，数据存储信息（Impala 通过 libhdfs 与 HDFS 进行交
互。通过 hdfsGetHosts 方法获得文件数据块所在节点的位置信息），通过调度器（现在只
有 simple-scheduler, 使用 round-robin 算法）Coordinator::Exec 对生成的执行计划
树分配给相应的后端执行器 Impalad 执行（查询会使用 LLVM 进行代码生成，编
译，执行），通过调用 GetNext()方法获取计算结果。
如果是 insert 语句，则将计算结果通过 libhdfs 写回 HDFS 当所有输入数据被
消耗光，执行结束，之后注销此次查询服务。

3 Impala 安装部署

3.1．安装前提

集群提前安装好 hadoop，hive。hive 安装包 scp 在所有需要安装 impala 的节点上，因为 impala 需要引用 hive的依赖包。
hadoop 框架需要支持 C 程序访问接口，查看下图，如果有该路径下有这么文件，就证明支持 C 接口。

3.2．下载安装包、依赖包

由于 impala 没有提供 tar 包进行安装，只提供了 rpm 包。因此在安装 impala的时候，需要使用 rpm 包来进行安装。rpm 包只有 cloudera 公司提供了，所以去cloudera 公司网站进行下载 rpm 包即可。
但是另外一个问题，impala 的 rpm 包依赖非常多的其他的 rpm 包，可以一个个的将依赖找出来，也可以将所有的 rpm 包下载下来，制作成我们本地 yum源来进行安装。这里就选择制作本地的 yum 源来进行安装。所以首先需要下载到所有的 rpm 包，下载地址如下
http://archive.cloudera.com/cdh5/repo-as-tarball/5.14.0/cdh5.14.0-centos6.tar.gz

3.3．虚拟机新增磁盘（可选）

由于下载的 cdh5.14.0-centos6.tar.gz 包非常大，大概 5 个 G，解压之后也最
少需要 5 个 G 的空间。而我们的虚拟机磁盘有限，可能会不够用了，所以可以为
虚拟机挂载一块新的磁盘，专门用于存储的 cdh5.14.0-centos6.tar.gz 包。
注意事项：新增挂载磁盘需要虚拟机保持在关机状态。
如果磁盘空间有余，那么本步骤可以省略不进行。

3.3.1．关机新增磁盘

虚拟机关机的状态下，在 VMware 当中新增一块磁盘。

3.3.2．开机挂载磁盘

开启虚拟机，对新增的磁盘进行分区，格式化，并且挂载新磁盘到指定目录。

下面对分区进行格式化操作：

mkfs -t ext4 -c /dev/sdb1

创建挂载目录：mount -t ext4 /dev/sdb1 /cloudera_data/
添加至开机自动挂载：

vim /etc/fstab
/dev/sdb1 /cloudera_data ext4 defaults 0 0

3.4．配置本地 yum 源

3.4.1．上传安装包解压

使用 sftp 的方式把安装包大文件上传到服务器/cloudera_data 目录下。

cd /cloudera_data
tar -zxvf cdh5.14.0-centos6.tar.gz

3.4.2．配置本地 yum 源信息

安装 Apache Server 服务器

yum -y install httpd
service httpd start
chkconfig httpd on

配置本地 yum 源的文件

cd /etc/yum.repos.d
vim localimp.repo 
[localimp]
name=localimp
baseurl=http://node-3/cdh5.14.0/
gpgcheck=0
enabled=1

创建 apache httpd 的读取链接

ln -s /cloudera_data/cdh/5.14.0 /var/www/html/cdh5.14.0

确保 linux 的 Selinux 关闭
临时关闭：

[root@localhost ~]# getenforce
Enforcing
[root@localhost ~]# setenforce 0
[root@localhost ~]# getenforce
Permissive

永久关闭：

[root@localhost ~]# vim /etc/sysconfig/selinux
SELINUX=enforcing 改为 SELINUX=disabled

重启服务 reboot
通过浏览器访问本地 yum 源，如果出现下述页面则成功。
http://192.168.227.153/cdh5.14.0/
将本地 yum 源配置文件 localimp.repo 发放到所有需要安装 impala 的节点。

cd /etc/yum.repos.d/
scp localimp.repo node-2:$PWD
scp localimp.repo node-3:$PWD

3.5．安装 Impala

3.5.1．集群规划

服务名称从节点从节点主节点

impala-catalog Node-3
impala-state-store Node-3
impala-server(impalad) Node-1 Node-2 Node-3

3.5.2．主节点安装

在规划的主节点 node-3 执行以下命令进行安装：

yum install -y impala impala-server impala-state-store impala-catalog impala-shell

3.5.3．从节点安装

在规划的从节点 node-1、node-2 执行以下命令进行安装：

yum install -y impala-server

3.6．修改 Hadoop、Hive 配置

需要在 3 台机器整个集群上进行操作，都需要修改。hadoop、hive 是否正常
服务并且配置好，是决定 impala 是否启动成功并使用的前提。

3.6.1．修改 hive 配置

可在 node-1 机器上进行配置，然后 scp 给其他 2 台机器。
vim /export/servers/hive/conf/hive-site.xml

<configuration> 
 <property> 
 <name>javax.jdo.option.ConnectionURL</name> 
 <value>jdbc:mysql://node-
1:3306/hive?createDatabaseIfNotExist=true</value> 
 </property> 
 <property> 
 <name>javax.jdo.option.ConnectionDriverName</name> 
 <value>com.mysql.jdbc.Driver</value> 
 </property> 
 <property> 
 <name>javax.jdo.option.ConnectionUserName</name> 
 <value>root</value> 
 </property> 
 <property> 
 <name>javax.jdo.option.ConnectionPassword</name> 
 <value>hadoop</value> 
 </property> 
 <property> 
 <name>hive.cli.print.current.db</name> 
 <value>true</value> 


 </property> 
 <property> 
 <name>hive.cli.print.header</name> 
 <value>true</value> 
 </property> 
<!-- 绑定运行 hiveServer2 的主机 host,默认 localhost --> 
 <property> 
 <name>hive.server2.thrift.bind.host</name> 
 <value>node-1</value> 
 </property> 
 <!-- 指定 hive metastore 服务请求的 uri 地址 --> 
 <property> 
 <name>hive.metastore.uris</name> 
 <value>thrift://node-1:9083</value> 
 </property> 
 <property> 
 <name>hive.metastore.client.socket.timeout</name> 
 <value>3600</value> 
 </property> 
</configuration>

将 hive 安装包 cp 给其他两个机器。

cd /export/servers/
scp -r hive/ node-2:$PWD
scp -r hive/ node-3:$PWD

3.6.2．修改 hadoop 配置

所有节点创建下述文件夹
mkdir -p /var/run/hdfs-sockets
修改所有节点的 hdfs-site.xml 添加以下配置，修改完之后重启 hdfs 集群生效

vim etc/hadoop/hdfs-site.xml

<property>
<name>dfs.client.read.shortcircuit</name>
<value>true</value>
</property>
<property>
<name>dfs.domain.socket.path</name>
<value>/var/run/hdfs-sockets/dn</value>
</property>
<property>
<name>dfs.client.file-block-storagelocations.timeout.millis</name>
<value>10000</value>
</property>
<property>
<name>dfs.datanode.hdfs-blocksmetadata.enabled</name>
<value>true</value>
</property>

dfs.client.read.shortcircuit 打开 DFSClient 本地读取数据的控制，
dfs.domain.socket.path 是 Datanode 和 DFSClient 之间沟通的 Socket
的本地路径。

把更新 hadoop 的配置文件，scp 给其他机器。

cd /export/servers/hadoop-2.7.5/etc/hadoop
scp -r hdfs-site.xml node-2:$PWD
scp -r hdfs-site.xml node-3:$PWD

注意：root 用户不需要下面操作，普通用户需要这一步操作。
给这个文件夹赋予权限，如果用的是普通用户 hadoop，那就直接赋予普通
用户的权限，例如：
chown -R hadoop:hadoop /var/run/hdfs-sockets/
因为这里直接用的 root 用户，所以不需要赋权限了。

3.6.3．重启 hadoop、hive

在 node-1 上执行下述命令分别启动 hive metastore 服务和 hadoop。

cd /export/servers/hive
nohup bin/hive --service metastore &
nohup bin/hive --service hiveserver2 &
cd /export/servers/hadoop-2.7.5/
sbin/stop-dfs.sh | sbin/start-dfs.sh

3.6.4．复制 hadoop、hive 配置文件

impala 的配置目录为/etc/impala/conf，这个路径下面需要把 core-site.xml，
hdfs-site.xml 以及 hive-site.xml。
所有节点执行以下命令

cp -r /export/servers/hadoop-2.7.5/etc/hadoop/core-site.xml 
/etc/impala/conf/core-site.xml
cp -r /export/servers/hadoop-2.7.5/etc/hadoop/hdfs-site.xml 
/etc/impala/conf/hdfs-site.xml
cp -r /export/servers/hive/conf/hive-site.xml 
/etc/impala/conf/hive-site.xml

3.7．修改 impala 配置

3.7.1．修改 impala 默认配置

所有节点更改 impala 默认配置文件

vim /etc/default/impala
IMPALA_CATALOG_SERVICE_HOST=node-3
IMPALA_STATE_STORE_HOST=node-3

3.7.2．添加 mysql 驱动

通过配置/etc/default/impala 中可以发现已经指定了 mysql 驱动的位置名字。
使用软链接指向该路径即可（3 台机器都需要执行）

ln -s /export/servers/hive/lib/mysql-connector-java-5.1.32.jar /usr/share/java/mysql-connector-java.jar

3.7.3．修改 bigtop 配置

修改 bigtop 的 java_home 路径（3 台机器）

vim /etc/default/bigtop-utils
export JAVA_HOME=/export/servers/jdk1.8.0_65

3.8．启动、关闭 impala 服务

主节点 node-3 启动以下三个服务进程

service impala-state-store start
service impala-catalog start
service impala-server start

从节点启动 node-1 与 node-2 启动 impala-server
service impala-server start
查看 impala 进程是否存在
ps -ef | grep impala
启动之后所有关于 impala 的日志默认都在/var/log/impala
如果需要关闭 impala 服务把命令中的 start 该成 stop 即可。注意如果关闭
之后进程依然驻留，可以采取下述方式删除。正常情况下是随着关闭消失的。
解决方式：

3.8.1． impala web ui

访问 impalad 的管理界面 http://node-3:25000/
访问 statestored 的管理界面 http://node-3:25010/

4 Impala-shell 命令参数

4.1． impala-shell 外部命令

所谓的外部命令指的是不需要进入到 impala-shell 交互命令行当中即可执行
的命令参数。impala-shell后面执行的时候可以带很多参数。你可以在启动 impalashell 时设置，用于修改命令执行环境。
impala-shell –h可以帮助我们查看帮助手册。也可以参考课程附件资料。
比如几个常见的：
impala-shell –r 刷新 impala 元数据，与建立连接后执行 REFRESH 语句
效果相同
impala-shell –f 文件路径执行指的的 sql 查询文件。
impala-shell –i 指定连接运行 impalad 守护进程的主机。默认端口是
21000。你可以连接到集群中运行 impalad 的任意主机。
impala-shell –o 保存执行结果到文件当中去。

4.2． impala-shell 内部命令

所谓内部命令是指，进入 impala-shell 命令行之后可以执行的语法。
connect hostname 连接到指定的机器 impalad 上去执行。
refresh dbname.tablename 增量刷新，刷新某一张表的元数据，主要用
于刷新 hive 当中数据表里面的数据改变的情况。
invalidate metadata 全量刷新，性能消耗较大，主要用于 hive 当中新
建数据库或者数据库表的时候来进行刷新。
quit/exit 命令从 Impala shell 中弹出
explain 命令用于查看 sql 语句的执行计划。

explain 的值可以设置成 0,1,2,3 等几个值，其中 3 级别是最高的，可以打印
出最全的信息
set explain_level=3;
profile 命令执行 sql 语句之后执行，可以
打印出更加详细的执行步骤，主要用于查询结果的查看，集群的调优等。
注意:如果在 hive 窗口中插入数据或者新建的数据库或者数据库表，那么在
impala当中是不可直接查询，需要执行invalidate metadata以通知元数据的更新；在 impala-shell 当中插入的数据，在 impala 当中是可以直接查询到的，不需
要刷新数据库，其中使用的就是 catalog 这个服务的功能实现的，catalog 是
impala1.2 版本之后增加的模块功能，主要作用就是同步 impala 之间的元数据。
更新操作通知 Catalog，Catalog 通过广播的方式通知其它的 Impalad 进程。
默认情况下 Catalog 是异步加载元数据的，因此查询可能需要等待元数据加载完
成之后才能进行（第一次加载）。

5 Impala sql 语法

5.1．数据库特定语句

5.1.1．创建数据库

CREATE DATABASE 语句用于在 Impala 中创建新数据库。
CREATE DATABASE IF NOT EXISTS database_name;
这里，IF NOT EXISTS 是一个可选的子句。如果我们使用此子句，则只有在没
有具有相同名称的现有数据库时，才会创建具有给定名称的数据库。
impala 默认使用 impala 用户执行操作，会报权限不足问题，解决办法：一：给 HDFS 指定文件夹授予权限
hadoop fs -chmod -R 777 hdfs://node-1:9000/user/hive
二：haoop 配置文件中 hdfs-site.xml 中设置权限为 false
上述两种方式都可以。

默认就会在 hive 的数仓路径下创建新的数据库名文件夹
/user/hive/warehouse/ittest.db
也可以在创建数据库的时候指定 hdfs 路径。需要注意该路径的权限。

hadoop fs -mkdir -p /input/impala
hadoop fs -chmod -R 777 /input/impala 
create external table t3(id int ,name string ,age int ) 
row format delimited fields terminated by '\t' location 
'/input/impala/external';

5.1.2．删除数据库

Impala 的 DROP DATABASE 语句用于从 Impala 中删除数据库。在删除数据库
之前，建议从中删除所有表。
如果使用级联删除，Impala 会在删除指定数据库中的表之前删除它。
DROP database sample cascade;

5.2．表特定语句

5.2.1． create table 语句

CREATE TABLE 语句用于在 Impala 中的所需数据库中创建新表。需要指定表
名字并定义其列和每列的数据类型。
impala 支持的数据类型和 hive 类似，除了 sql 类型外，还支持 java 类型。
create table IF NOT EXISTS database_name.table_name (
column1 data_type,
column2 data_type,
column3 data_type,
………
columnN data_type
);
CREATE TABLE IF NOT EXISTS my_db.student(name STRING, age
INT, contact INT );
默认建表的数据存储路径跟 hive 一致。也可以在建表的时候通过 location 指
定具体路径，需要注意 hdfs 权限问题。

5.2.2． insert 语句

Impala 的 INSERT 语句有两个子句: into 和 overwrite。into 用于插入新记录数
据，overwrite 用于覆盖已有的记录。

insert into table_name (column1, column2, column3,...columnN)
values (value1, value2, value3,...valueN);
Insert into table_name values (value1, value2, value2);

这里，column1，column2，… columnN 是要插入数据的表中的列的名称。还
可以添加值而不指定列名，但是，需要确保值的顺序与表中的列的顺序相同。
举个例子：

create table employee (Id INT, name STRING, age INT,address STRING, salary 
BIGINT);
insert into employee VALUES (1, 'Ramesh', 32, 'Ahmedabad', 20000 );
insert into employee values (2, 'Khilan', 25, 'Delhi', 15000 );
Insert into employee values (3, 'kaushik', 23, 'Kota', 30000 );
Insert into employee values (4, 'Chaitali', 25, 'Mumbai', 35000 );
Insert into employee values (5, 'Hardik', 27, 'Bhopal', 40000 );
Insert into employee values (6, 'Komal', 22, 'MP', 32000 );
overwrite 覆盖子句覆盖表当中全部记录。 覆盖的记录将从表中永久删除。
Insert overwrite employee values (1, 'Ram', 26, 'Vishakhapatnam', 37000 );

5.2.3． select 语句

Impala SELECT 语句用于从数据库中的一个或多个表中提取数据。此查询以
表的形式返回数据。

5.2.4． describe 语句

Impala 中的 describe 语句用于提供表的描述。此语句的结果包含有关表的
信息，例如列名称及其数据类型。
Describe table_name;
此外，还可以使用 hive 的查询表元数据信息语句。
desc formatted table_name;

5.2.5． alter table

Impala 中的 Alter table 语句用于对给定表执行更改。使用此语句，我们可以
添加，删除或修改现有表中的列，也可以重命名它们。
表重命名：

ALTER TABLE [old_db_name.]old_table_name RENAME TO
[new_db_name.]new_table_name

向表中添加列：

ALTER TABLE name ADD COLUMNS (col_spec[, col_spec ...])

从表中删除列：

ALTER TABLE name DROP [COLUMN] column_name

更改列的名称和类型：

ALTER TABLE name CHANGE column_name new_name new_type

5.2.6． delete、truncate table

Impala drop table 语句用于删除 Impala 中的现有表。此语句还会删除内部表
的底层 HDFS 文件。
注意：使用此命令时必须小心，因为删除表后，表中可用的所有信息也将永
远丢失。
DROP table database_name.table_name;
Impala 的 Truncate Table 语句用于从现有表中删除所有记录。保留表结构。
您也可以使用 DROP TABLE 命令删除一个完整的表，但它会从数据库中删除
完整的表结构，如果您希望存储一些数据，您将需要重新创建此表。
truncate table_name;

5.2.7． view 视图

视图仅仅是存储在数据库中具有关联名称的 Impala 查询语言的语句。它是
以预定义的 SQL 查询形式的表的组合。
视图可以包含表的所有行或选定的行。
Create View IF NOT EXISTS view_name as Select statement
创建视图 view、查询视图 view
CREATE VIEW IF NOT EXISTS employee_view AS select name, age from employee;
修改视图
ALTER VIEW database_name.view_name 为 Select 语句
删除视图
DROP VIEW database_name.view_name;

5.2.8． order by 子句

Impala ORDER BY子句用于根据一个或多个列以升序或降序对数据进行排序。
默认情况下，一些数据库按升序对查询结果进行排序。

select * from table_name ORDER BY col_name
[ASC|DESC] [NULLS FIRST|NULLS LAST]

可以使用关键字 ASC 或 DESC 分别按升序或降序排列表中的数据。
如果我们使用 NULLS FIRST，表中的所有空值都排列在顶行; 如果我们使用
NULLS LAST，包含空值的行将最后排列。

5.2.9． group by 子句

Impala GROUP BY 子句与 SELECT 语句协作使用，以将相同的数据排列到组中。
select data from table_name Group BY col_name;

5.2.10． having 子句

Impala 中的 Having 子句允许您指定过滤哪些组结果显示在最终结果中的条件。一般来说，Having 子句与 group by 子句一起使用; 它将条件放置在由 GROUP BY 子句创建的组上。

5.2.11． limit、offset

Impala 中的 limit 子句用于将结果集的行数限制为所需的数，即查询的结果集不包含超过指定限制的记录。一般来说，select 查询的 resultset 中的行从 0 开始。使用 offset 子句，我们可以决定从哪里考虑输出。

5.2.12． with 子句

如果查询太复杂，我们可以为复杂部分定义别名，并使用 Impala 的 with 子句将它们包含在查询中。

with x as (select 1), y as (select 2) (select * from x union y);
例如：使用 with 子句显示年龄大于 25 的员工和客户的记录。

with t1 as (select * from customers where age>25), 
 t2 as (select * from employee where age>25) 
 (select * from t1 union select * from t2);

5.2.13． distinct

Impala 中的 distinct 运算符用于通过删除重复值来获取唯一值。
select distinct columns… from table_name;

6 Impala 数据导入方式

6.1． load data

首先创建一个表：
create table user(id int ,name string,age int ) row format delimited fields
terminated by “\t”;
准备数据 user.txt 并上传到 hdfs 的 /user/impala 路径下去
加载数据
load data inpath ‘/user/impala/’ into table user;
查询加载的数据
select * from user;
如果查询不不到数据，那么需要刷新一遍数据表。
refresh user;

6.2． insert into values

这种方式非常类似于 RDBMS 的数据插入方式。
create table t_test2(id int,name string);
insert into table t_test2 values(1,”zhangsan”);

6.3． insert into select

插入一张表的数据来自于后面的 select 查询语句返回的结果。

6.4． create as select

建表的字段个数、类型、数据来自于后续的 select 查询语句。

7 Impala 的 java 开发

在实际工作当中，因为 impala 的查询比较快，所以可能有会使用到 impala
来做数据库查询的情况，可以通过 java 代码来进行操作 impala 的查询。

7.1．下载 impala jdbc 依赖

下载路径：
https://www.cloudera.com/downloads/connectors/impala/jdbc/2-5-28.html
因为 cloudera 属于商业公司性质，其提供的 jar 并不会出现在开源的 maven
仓库中，如果在企业中需要使用，请添加到企业 maven 私服。

7.2．创建 java 工程

创建普通 java 工程，把依赖添加工程。

7.3． java api

public static void test(){
 Connection con = null;
 ResultSet rs = null;
 PreparedStatement ps = null;
 String JDBC_DRIVER = "com.cloudera.impala.jdbc41.Driver";
 String CONNECTION_URL = "jdbc:impala://node-3:21050";
 try
 {
 Class.forName(JDBC_DRIVER);
 con = (Connection) DriverManager.getConnection(CONNECTION_URL);
 ps = con.prepareStatement("select * from my_db.employee;");
 rs = ps.executeQuery();
 while (rs.next())
 {
 System.out.println(rs.getString(1));
 System.out.println(rs.getString(2));
 System.out.println(rs.getString(3));
 }
 } catch (Exception e)
 {
 e.printStackTrace();
 } finally
 {
 try {
 rs.close();
 ps.close();
 con.close();
 } catch (SQLException e) {
 e.printStackTrace();
 }
 }
 }
 public static void main(String[] args) {
 test();
 }