Phoenix简解

最近接触到hbase,hbase可以满足大容量的数据在毫秒级别进行反应,这就用到了hbase中的二级索引;在hbase中也支持sql语法;这两项功能都用到了这一门技术->phoenix

HBASE与HIVE的执行效率比较

在这里插入图片描述
Hive能够把sql转换成mr任务运行,但整体运行速度比较慢,而HBase能够做到毫秒级的响应,最底层还是基于scan操作以及过滤器进行处理的,而中间,有一个Phoenix

Phoenix搭建

先关闭hbase
1、选一个和自己的hbase匹配的phoenix版本,1.4的hbase适用于phoenix 4.x
2、上传解压缩
在这里插入图片描述
3、将phoenix-4.15.0-HBase-1.4-server.jar复制到所有节点的hbase lib目录下
scp /opt/modules/phoenix-4.15.0/phoenix-4.15.0-HBase-1.4-server.jar master:/opt/modules/hbase-1.4.6/lib/

scp /usr/local/soft/phoenix-4.15.0/phoenix-4.15.0-HBase-1.4-server.jar node1:/opt/modules/hbase-1.4.6/lib/

scp /usr/local/soft/phoenix-4.15.0/phoenix-4.15.0-HBase-1.4-server.jar node2:/opt/modules/hbase-1.4.6/lib/

4、配置/etc/profile中的环境变量

5、master中启动hbase

Phoenix使用

进入phoenix

连接sqlline,进入phoenix的交互界面
在这里插入图片描述

phoenix简单使用

phoenix中区分大小写

创建表
在这里插入图片描述
显示表(这里会把你创建过的表和索引都给显示出来)
在这里插入图片描述
插入数据
在这里插入图片描述
查询数据:支持大部分的SQL语言,在hbase中,也不会使用很复杂的语言,有一些如果SQL不能完成的话,可以配上Java来进行操作

删除数据
在这里插入图片描述

删除表
在这里插入图片描述
退出
!quit

Phoenix表映射

默认情况下,在hbase中创建的表,在phoenix中是不能进行操作的,想在phoenix中操作hbase的表,就需要进行一个映射操作
两种映射可选,一个是视图映射,一个是表映射

视图映射

视图映射是只读的,只能用来查询,不能对源数据进行修改等操作

举例一:
在hbase中创建一张test表
create ‘test’,‘name’,‘clazz’

插入数据
put ‘test’,‘001’,‘name:firstname’,‘zhangsan’
put ‘test’,‘001’,‘name:lastname’,‘list’
put ‘test’,‘001’,‘clazz:firstclazz’,‘一班’
put ‘test’,‘001’,‘clazz:lastclazz’,‘二班’

在phoenix中创建视图,primary key对应hbase中的rowkey
create view “test”(
empid varchar primary key,
“name”.“firstname” varchar,
“name”.“lastname” varchar,
“clazz”.“firstclazz” varchar,
“clazz”.“lastclazz” varchar
);

在这里插入图片描述

就可以在phoenix中使用SQL查看hbase中的数据了

举例二:
在这里插入图片描述
将学生表的数据分别在hbase中创建并导入,在phoenix中创建相应的视图(使用Java导入数据在上一篇关于hbase的博客中有详述,这里不做讲述)

在phoenix创建相应的视图
CREATE view “students” (
id VARCHAR NOT NULL PRIMARY KEY,
“info”.“name” VARCHAR,
“info”.“age” VARCHAR,
“info”.“gender” VARCHAR ,
“info”.“clazz” VARCHAR
) column_encoded_bytes=0;

特别注意在phoenix中查询数据的时候,要给表名加上双引号
查询数据
select * from "students"

删除视图
在这里插入图片描述

表映射

其实就直接使用创建表就行了,在hbase中没有表时,在phoenix中创建需要的表即可,创建完成之后,在hbase中会出现相应的表

在这里插入图片描述
可以看到,hbase中是没有test这张表的,现在在phoenix中创建test表
在这里插入图片描述
发现在hbase中出现了test表
在这里插入图片描述

Phoenix二级索引

hbase具有查询数据毫秒级别的响应,和rowkey有着不可分割的联系,hbase的查询,最终都是基于scan+Filter的形式,针对rowkey进行查询,实际上使用的时rowkey前缀过滤器,查询效率较高,如果不根据rowkey进行查询,就需要对表进行逐一扫描,所消耗的资源很高,所以二级索引就是建立了一个rowkey与列值之间的关系,提高查询效率
在这里插入图片描述

开启索引支持

关闭hbase集群
在hbase目录下conf中的hbase-site.xml中添加下列配置

<property>
  <name>hbase.regionserver.wal.codec</name>
  <value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec</value>
</property>
<property>
    <name>hbase.rpc.timeout</name>
    <value>60000000</value>
</property>
<property>
    <name>hbase.client.scanner.timeout.period</name>
    <value>60000000</value>
</property>
<property>
    <name>phoenix.query.timeoutMs</name>
    <value>60000000</value>
</property>

将hbase-site.xml同步到所有节点
scp hbase-site.xml node1:pwd
scp hbase-site.xml node2:pwd

修改phoenix目录下的bin中的hbase-site.xml

<property>
    <name>hbase.rpc.timeout</name>
    <value>60000000</value>
</property>
<property>
    <name>hbase.client.scanner.timeout.period</name>
    <value>60000000</value>
</property>
<property>
    <name>phoenix.query.timeoutMs</name>
    <value>60000000</value>
</property>

启动hbase
重新进入phoenix客户端即可
sqlline.sql master,node1,node2

创建索引

全局索引(第一种方式,不要对数据进行改动,做查询即可,频繁的写入,也会修改索引表)

全局索引适合 读多写少 的场景,使用全局索引时,基本不损耗性能,因为每次查询都是根据rowkey来进行查询,无太多资源消耗,消耗的资源来自于写数据;数据表的增删改都会对相关的索引表做一个更新,索引表会跟着发生变化
全局索引中,要想查询某一不在索引表中的列,phoenix不会使用索引表,但可以加上hint来当作索引表中的数据使用

将数据和要执行的SQL放在同一个位置
在这里插入图片描述
导入数据
在这里插入图片描述

单列索引

创建全局索引
CREATE INDEX DIANXIN_INDEX ON DIANXIN ( end_date );(基于结束时间做索引,从头开始构建索引表非常耗时)
在这里插入图片描述
查询数据 ( 索引未生效)
select * from DIANXIN where end_date = ‘20180503154014’;
在这里插入图片描述
强制使用索引 (索引生效) hint
select /*+ INDEX(DIANXIN DIANXIN_INDEX) */ * from DIANXIN where end_date = ‘20180503154014’;
在这里插入图片描述
取索引列,(索引生效)(创建表时,将end_date这一列定为索引列,查询这一列的时候反馈的时间为毫秒级别
select end_date from DIANXIN where end_date = ‘20180503154014’;
在这里插入图片描述

多列索引

创建多列索引
CREATE INDEX DIANXIN_INDEX1 ON DIANXIN ( end_date,COUNTY );
在这里插入图片描述
多条件查询 (索引生效)
select end_date,MDN,COUNTY from DIANXIN where end_date = ‘20180503154014’ and COUNTY = ‘8340104’;
在这里插入图片描述
想查什么,就把什么当作索引

查询所有列 (索引未生效)
select * from DIANXIN where end_date = ‘20180503154014’ and COUNTY = ‘8340104’;

本地索引(看不到,由每个region自己去维护)

本地索引适合写多读少的场景,或者存储空间有限的场景;本地索引中索引数据和原数据都存储在同一台机器上,可以避免网络传输的资源消耗(全局索引是在所有的机器上面进行,所以会有网络传输的消耗,而由于无法提前确定数据在那个region中,所以读数据的时候,需要检查每个region上的数据从而会带来一些性能的消耗)
对于本地索引,查询中无论是否指定hint,或者查询的列在不在索引表中,都会使用索引表

创建本地索引
CREATE LOCAL INDEX DIANXIN_LOCAL_IDEX ON DIANXIN(grid_id);

索引生效
select grid_id from dianxin where grid_id=‘117285031820040’;

索引生效
select * from dianxin where grid_id=‘117285031820040’;

覆盖索引(也就是介绍索引方式中的第二种)

覆盖索引就是把原数据的内容直接存储在索引数据表中,查询的时候不需要去hbase的原表中获取数据,直接返回查询结果

创建覆盖索引
CREATE INDEX DIANXIN_INDEX_COVER ON DIANXIN ( x,y ) INCLUDE ( county );

查询所有列 (索引未生效)
select * from dianxin where x=117.288 and y =31.822;

强制使用索引 (索引生效)
select /*+ INDEX(DIANXIN DIANXIN_INDEX_COVER) */ * from dianxin where x=117.288 and y =31.822;

查询索引中的列 (索引生效) mdn是DIANXIN表的RowKey中的一部分
select x,y,county from dianxin where x=117.288 and y =31.822;
select mdn,x,y,county from dianxin where x=117.288 and y =31.822;

查询条件必须放在索引中 select 中的列可以放在INCLUDE (将数据保存在索引中)
select /*+ INDEX(DIANXIN DIANXIN_INDEX_COVER) / x,y,count() from dianxin group by x,y;

Phoenix JDBC

配置文件中要添加:

<dependency>
            <groupId>org.apache.phoenix</groupId>
            <artifactId>phoenix-core</artifactId>
            <version>4.15.0-HBase-1.4</version>
        </dependency>

顺道要取消:

<!--<dependency>-->
            <!--<groupId>org.apache.hbase</groupId>-->
            <!--<artifactId>hbase-client</artifactId>-->
            <!--<version>1.4.6</version>-->
        <!--</dependency>-->
import java.sql.*;

public class Demo5Phoenix_JDBC {
    public static void main(String[] args) throws SQLException {

        Connection conn = DriverManager.getConnection("jdbc:phoenix:master,node1,node2:2181");
        PreparedStatement ps = conn.prepareStatement("select /*+ INDEX(DIANXIN DIANXIN_INDEX) */ * from DIANXIN where end_date=?");
        ps.setString(1, "20180503212649");
        ResultSet rs = ps.executeQuery();
        while (rs.next()) {
            String mdn = rs.getString("mdn");
            String start_date = rs.getString("start_date");
            String end_date = rs.getString("end_date");
            String x = rs.getString("x");
            String y = rs.getString("y");
            String county = rs.getString("county");
            System.out.println(mdn + "\t" + start_date + "\t" + end_date + "\t" + x + "\t" + y + "\t" + county);
        }
        ps.close();
        conn.close();
    }
    }

在这里插入图片描述

感谢阅读,我是啊帅和和,一位大数据专业大四学生,祝你快乐。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

啊帅和和。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值