Phoenix简解

最新推荐文章于 2023-03-28 10:09:52 发布

啊帅和和。

最新推荐文章于 2023-03-28 10:09:52 发布

阅读量249

点赞数

分类专栏： HBASE专栏。大数据专栏。文章标签： hive big data sql

本文链接：https://blog.csdn.net/l_dsj/article/details/120771343

版权

大数据专栏。同时被 2 个专栏收录

50 篇文章 0 订阅

订阅专栏

HBASE专栏。

4 篇文章 0 订阅

订阅专栏

最近接触到hbase，hbase可以满足大容量的数据在毫秒级别进行反应，这就用到了hbase中的二级索引；在hbase中也支持sql语法；这两项功能都用到了这一门技术->phoenix

HBASE与HIVE的执行效率比较

在这里插入图片描述
Hive能够把sql转换成mr任务运行，但整体运行速度比较慢，而HBase能够做到毫秒级的响应，最底层还是基于scan操作以及过滤器进行处理的，而中间，有一个Phoenix

Phoenix搭建

（先关闭hbase）
1、选一个和自己的hbase匹配的phoenix版本，1.4的hbase适用于phoenix 4.x
2、上传解压缩
在这里插入图片描述
3、将phoenix-4.15.0-HBase-1.4-server.jar复制到所有节点的hbase lib目录下
scp /opt/modules/phoenix-4.15.0/phoenix-4.15.0-HBase-1.4-server.jar master:/opt/modules/hbase-1.4.6/lib/

scp /usr/local/soft/phoenix-4.15.0/phoenix-4.15.0-HBase-1.4-server.jar node1:/opt/modules/hbase-1.4.6/lib/

scp /usr/local/soft/phoenix-4.15.0/phoenix-4.15.0-HBase-1.4-server.jar node2:/opt/modules/hbase-1.4.6/lib/

4、配置/etc/profile中的环境变量

5、master中启动hbase

Phoenix使用

进入phoenix

连接sqlline，进入phoenix的交互界面
在这里插入图片描述

phoenix简单使用

phoenix中区分大小写

创建表
在这里插入图片描述
显示表（这里会把你创建过的表和索引都给显示出来）

插入数据

查询数据：支持大部分的SQL语言，在hbase中，也不会使用很复杂的语言，有一些如果SQL不能完成的话，可以配上Java来进行操作

删除数据
在这里插入图片描述

删除表
在这里插入图片描述
退出
！quit

Phoenix表映射

默认情况下，在hbase中创建的表，在phoenix中是不能进行操作的，想在phoenix中操作hbase的表，就需要进行一个映射操作
两种映射可选，一个是视图映射，一个是表映射

视图映射

视图映射是只读的，只能用来查询，不能对源数据进行修改等操作

举例一：
在hbase中创建一张test表
create ‘test’,‘name’,‘clazz’

插入数据
put ‘test’,‘001’,‘name:firstname’,‘zhangsan’
put ‘test’,‘001’,‘name:lastname’,‘list’
put ‘test’,‘001’,‘clazz:firstclazz’,‘一班’
put ‘test’,‘001’,‘clazz:lastclazz’,‘二班’

在phoenix中创建视图，primary key对应hbase中的rowkey
create view “test”(
empid varchar primary key,
“name”.“firstname” varchar,
“name”.“lastname” varchar,
“clazz”.“firstclazz” varchar,
“clazz”.“lastclazz” varchar
);

在这里插入图片描述

就可以在phoenix中使用SQL查看hbase中的数据了

举例二：
在这里插入图片描述
将学生表的数据分别在hbase中创建并导入，在phoenix中创建相应的视图（使用Java导入数据在上一篇关于hbase的博客中有详述，这里不做讲述）

在phoenix创建相应的视图
CREATE view “students” (
id VARCHAR NOT NULL PRIMARY KEY,
“info”.“name” VARCHAR,
“info”.“age” VARCHAR,
“info”.“gender” VARCHAR ,
“info”.“clazz” VARCHAR
) column_encoded_bytes=0;

特别注意在phoenix中查询数据的时候，要给表名加上双引号
查询数据
select * from "students"

删除视图
在这里插入图片描述

表映射

其实就直接使用创建表就行了，在hbase中没有表时，在phoenix中创建需要的表即可，创建完成之后，在hbase中会出现相应的表

在这里插入图片描述
可以看到，hbase中是没有test这张表的，现在在phoenix中创建test表

发现在hbase中出现了test表

Phoenix二级索引

hbase具有查询数据毫秒级别的响应，和rowkey有着不可分割的联系，hbase的查询，最终都是基于scan+Filter的形式，针对rowkey进行查询，实际上使用的时rowkey前缀过滤器，查询效率较高，如果不根据rowkey进行查询，就需要对表进行逐一扫描，所消耗的资源很高，所以二级索引就是建立了一个rowkey与列值之间的关系，提高查询效率

开启索引支持

关闭hbase集群
在hbase目录下conf中的hbase-site.xml中添加下列配置

<property>
  <name>hbase.regionserver.wal.codec</name>
  <value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec</value>
</property>
<property>
    <name>hbase.rpc.timeout</name>
    <value>60000000</value>
</property>
<property>
    <name>hbase.client.scanner.timeout.period</name>
    <value>60000000</value>
</property>
<property>
    <name>phoenix.query.timeoutMs</name>
    <value>60000000</value>
</property>

将hbase-site.xml同步到所有节点
scp hbase-site.xml node1:pwd
scp hbase-site.xml node2:pwd

修改phoenix目录下的bin中的hbase-site.xml

<property>
    <name>hbase.rpc.timeout</name>
    <value>60000000</value>
</property>
<property>
    <name>hbase.client.scanner.timeout.period</name>
    <value>60000000</value>
</property>
<property>
    <name>phoenix.query.timeoutMs</name>
    <value>60000000</value>
</property>

启动hbase
重新进入phoenix客户端即可
sqlline.sql master,node1,node2

创建索引

全局索引（第一种方式，不要对数据进行改动，做查询即可，频繁的写入，也会修改索引表）

全局索引适合 读多写少 的场景，使用全局索引时，基本不损耗性能，因为每次查询都是根据rowkey来进行查询，无太多资源消耗，消耗的资源来自于写数据；数据表的增删改都会对相关的索引表做一个更新，索引表会跟着发生变化
全局索引中，要想查询某一不在索引表中的列，phoenix不会使用索引表，但可以加上hint来当作索引表中的数据使用

将数据和要执行的SQL放在同一个位置
在这里插入图片描述
导入数据

单列索引

创建全局索引
CREATE INDEX DIANXIN_INDEX ON DIANXIN ( end_date );（基于结束时间做索引，从头开始构建索引表非常耗时）
在这里插入图片描述
查询数据 ( 索引未生效)
select * from DIANXIN where end_date = ‘20180503154014’;

强制使用索引（索引生效） hint
select /*+ INDEX(DIANXIN DIANXIN_INDEX) */ * from DIANXIN where end_date = ‘20180503154014’;

取索引列，（索引生效）（创建表时，将end_date这一列定为索引列，查询这一列的时候反馈的时间为毫秒级别）
select end_date from DIANXIN where end_date = ‘20180503154014’;
在这里插入图片描述

多列索引

创建多列索引
CREATE INDEX DIANXIN_INDEX1 ON DIANXIN ( end_date,COUNTY );
在这里插入图片描述
多条件查询（索引生效）
select end_date,MDN,COUNTY from DIANXIN where end_date = ‘20180503154014’ and COUNTY = ‘8340104’;

想查什么，就把什么当作索引

查询所有列 (索引未生效)
select * from DIANXIN where end_date = ‘20180503154014’ and COUNTY = ‘8340104’;

本地索引（看不到，由每个region自己去维护）

本地索引适合写多读少的场景，或者存储空间有限的场景；本地索引中索引数据和原数据都存储在同一台机器上，可以避免网络传输的资源消耗（全局索引是在所有的机器上面进行，所以会有网络传输的消耗，而由于无法提前确定数据在那个region中，所以读数据的时候，需要检查每个region上的数据从而会带来一些性能的消耗）
而对于本地索引，查询中无论是否指定hint，或者查询的列在不在索引表中，都会使用索引表

创建本地索引
CREATE LOCAL INDEX DIANXIN_LOCAL_IDEX ON DIANXIN(grid_id);

索引生效
select grid_id from dianxin where grid_id=‘117285031820040’;

索引生效
select * from dianxin where grid_id=‘117285031820040’;

覆盖索引（也就是介绍索引方式中的第二种）

覆盖索引就是把原数据的内容直接存储在索引数据表中，查询的时候不需要去hbase的原表中获取数据，直接返回查询结果

创建覆盖索引
CREATE INDEX DIANXIN_INDEX_COVER ON DIANXIN ( x,y ) INCLUDE ( county );

查询所有列 (索引未生效)
select * from dianxin where x=117.288 and y =31.822;

强制使用索引 (索引生效)
select /*+ INDEX(DIANXIN DIANXIN_INDEX_COVER) */ * from dianxin where x=117.288 and y =31.822;

查询索引中的列 (索引生效) mdn是DIANXIN表的RowKey中的一部分
select x,y,county from dianxin where x=117.288 and y =31.822;
select mdn,x,y,county from dianxin where x=117.288 and y =31.822;

查询条件必须放在索引中 select 中的列可以放在INCLUDE （将数据保存在索引中）
select /*+ INDEX(DIANXIN DIANXIN_INDEX_COVER) / x,y,count() from dianxin group by x,y;

Phoenix JDBC

配置文件中要添加：

<dependency>
            <groupId>org.apache.phoenix</groupId>
            <artifactId>phoenix-core</artifactId>
            <version>4.15.0-HBase-1.4</version>
        </dependency>

顺道要取消：

<!--<dependency>-->
            <!--<groupId>org.apache.hbase</groupId>-->
            <!--<artifactId>hbase-client</artifactId>-->
            <!--<version>1.4.6</version>-->
        <!--</dependency>-->

import java.sql.*;

public class Demo5Phoenix_JDBC {
    public static void main(String[] args) throws SQLException {

        Connection conn = DriverManager.getConnection("jdbc:phoenix:master,node1,node2:2181");
        PreparedStatement ps = conn.prepareStatement("select /*+ INDEX(DIANXIN DIANXIN_INDEX) */ * from DIANXIN where end_date=?");
        ps.setString(1, "20180503212649");
        ResultSet rs = ps.executeQuery();
        while (rs.next()) {
            String mdn = rs.getString("mdn");
            String start_date = rs.getString("start_date");
            String end_date = rs.getString("end_date");
            String x = rs.getString("x");
            String y = rs.getString("y");
            String county = rs.getString("county");
            System.out.println(mdn + "\t" + start_date + "\t" + end_date + "\t" + x + "\t" + y + "\t" + county);
        }
        ps.close();
        conn.close();
    }
    }

在这里插入图片描述

感谢阅读，我是啊帅和和，一位大数据专业大四学生，祝你快乐。

啊帅和和。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
Phoenix简解

目录HBASE与HIVE的执行效率比较Phoenix搭建Phoenix使用Phoenix二级索引HBASE与HIVE的执行效率比较Hive能够把sql转换成mr任务运行，但整体运行速度比较慢，而HBase能够做到毫秒级的响应，最底层还是基于scan操作以及过滤器进行处理的，而中间，有一个PhoenixPhoenix搭建Phoenix使用Phoenix二级索引感谢阅读，我是啊帅和和，一位大数据专业大四学生，祝你快乐。...
复制链接

扫一扫