最近接触到hbase,hbase可以满足大容量的数据在毫秒级别进行反应,这就用到了hbase中的二级索引;在hbase中也支持sql语法;这两项功能都用到了这一门技术->phoenix
目录
HBASE与HIVE的执行效率比较
Hive能够把sql转换成mr任务运行,但整体运行速度比较慢,而HBase能够做到毫秒级的响应,最底层还是基于scan操作以及过滤器进行处理的,而中间,有一个Phoenix
Phoenix搭建
(先关闭hbase)
1、选一个和自己的hbase匹配的phoenix版本,1.4的hbase适用于phoenix 4.x
2、上传解压缩
3、将phoenix-4.15.0-HBase-1.4-server.jar复制到所有节点的hbase lib目录下
scp /opt/modules/phoenix-4.15.0/phoenix-4.15.0-HBase-1.4-server.jar master:/opt/modules/hbase-1.4.6/lib/
scp /usr/local/soft/phoenix-4.15.0/phoenix-4.15.0-HBase-1.4-server.jar node1:/opt/modules/hbase-1.4.6/lib/
scp /usr/local/soft/phoenix-4.15.0/phoenix-4.15.0-HBase-1.4-server.jar node2:/opt/modules/hbase-1.4.6/lib/
4、配置/etc/profile中的环境变量
5、master中启动hbase
Phoenix使用
进入phoenix
连接sqlline,进入phoenix的交互界面
phoenix简单使用
phoenix中区分大小写
创建表
显示表(这里会把你创建过的表和索引都给显示出来)
插入数据
查询数据:支持大部分的SQL语言,在hbase中,也不会使用很复杂的语言,有一些如果SQL不能完成的话,可以配上Java来进行操作
删除数据
删除表
退出
!quit
Phoenix表映射
默认情况下,在hbase中创建的表,在phoenix中是不能进行操作的,想在phoenix中操作hbase的表,就需要进行一个映射操作
两种映射可选,一个是视图映射,一个是表映射
视图映射
视图映射是只读的,只能用来查询,不能对源数据进行修改等操作
举例一:
在hbase中创建一张test表
create ‘test’,‘name’,‘clazz’
插入数据
put ‘test’,‘001’,‘name:firstname’,‘zhangsan’
put ‘test’,‘001’,‘name:lastname’,‘list’
put ‘test’,‘001’,‘clazz:firstclazz’,‘一班’
put ‘test’,‘001’,‘clazz:lastclazz’,‘二班’
在phoenix中创建视图,primary key对应hbase中的rowkey
create view “test”(
empid varchar primary key,
“name”.“firstname” varchar,
“name”.“lastname” varchar,
“clazz”.“firstclazz” varchar,
“clazz”.“lastclazz” varchar
);
就可以在phoenix中使用SQL查看hbase中的数据了
举例二:
将学生表的数据分别在hbase中创建并导入,在phoenix中创建相应的视图(使用Java导入数据在上一篇关于hbase的博客中有详述,这里不做讲述)
在phoenix创建相应的视图
CREATE view “students” (
id VARCHAR NOT NULL PRIMARY KEY,
“info”.“name” VARCHAR,
“info”.“age” VARCHAR,
“info”.“gender” VARCHAR ,
“info”.“clazz” VARCHAR
) column_encoded_bytes=0;
特别注意在phoenix中查询数据的时候,要给表名加上双引号
查询数据
select * from "students"
删除视图
表映射
其实就直接使用创建表就行了,在hbase中没有表时,在phoenix中创建需要的表即可,创建完成之后,在hbase中会出现相应的表
可以看到,hbase中是没有test这张表的,现在在phoenix中创建test表
发现在hbase中出现了test表
Phoenix二级索引
hbase具有查询数据毫秒级别的响应,和rowkey有着不可分割的联系,hbase的查询,最终都是基于scan+Filter的形式,针对rowkey进行查询,实际上使用的时rowkey前缀过滤器,查询效率较高,如果不根据rowkey进行查询,就需要对表进行逐一扫描,所消耗的资源很高,所以二级索引就是建立了一个rowkey与列值之间的关系,提高查询效率
开启索引支持
关闭hbase集群
在hbase目录下conf中的hbase-site.xml中添加下列配置
<property>
<name>hbase.regionserver.wal.codec</name>
<value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec</value>
</property>
<property>
<name>hbase.rpc.timeout</name>
<value>60000000</value>
</property>
<property>
<name>hbase.client.scanner.timeout.period</name>
<value>60000000</value>
</property>
<property>
<name>phoenix.query.timeoutMs</name>
<value>60000000</value>
</property>
将hbase-site.xml同步到所有节点
scp hbase-site.xml node1:pwd
scp hbase-site.xml node2:pwd
修改phoenix目录下的bin中的hbase-site.xml
<property>
<name>hbase.rpc.timeout</name>
<value>60000000</value>
</property>
<property>
<name>hbase.client.scanner.timeout.period</name>
<value>60000000</value>
</property>
<property>
<name>phoenix.query.timeoutMs</name>
<value>60000000</value>
</property>
启动hbase
重新进入phoenix客户端即可
sqlline.sql master,node1,node2
创建索引
全局索引(第一种方式,不要对数据进行改动,做查询即可,频繁的写入,也会修改索引表)
全局索引适合 读多写少 的场景,使用全局索引时,基本不损耗性能,因为每次查询都是根据rowkey来进行查询,无太多资源消耗,消耗的资源来自于写数据;数据表的增删改都会对相关的索引表做一个更新,索引表会跟着发生变化
全局索引中,要想查询某一不在索引表中的列,phoenix不会使用索引表,但可以加上hint来当作索引表中的数据使用
将数据和要执行的SQL放在同一个位置
导入数据
单列索引
创建全局索引
CREATE INDEX DIANXIN_INDEX ON DIANXIN ( end_date );(基于结束时间做索引,从头开始构建索引表非常耗时)
查询数据 ( 索引未生效)
select * from DIANXIN where end_date = ‘20180503154014’;
强制使用索引 (索引生效) hint
select /*+ INDEX(DIANXIN DIANXIN_INDEX) */ * from DIANXIN where end_date = ‘20180503154014’;
取索引列,(索引生效)(创建表时,将end_date这一列定为索引列,查询这一列的时候反馈的时间为毫秒级别)
select end_date from DIANXIN where end_date = ‘20180503154014’;
多列索引
创建多列索引
CREATE INDEX DIANXIN_INDEX1 ON DIANXIN ( end_date,COUNTY );
多条件查询 (索引生效)
select end_date,MDN,COUNTY from DIANXIN where end_date = ‘20180503154014’ and COUNTY = ‘8340104’;
想查什么,就把什么当作索引
查询所有列 (索引未生效)
select * from DIANXIN where end_date = ‘20180503154014’ and COUNTY = ‘8340104’;
本地索引(看不到,由每个region自己去维护)
本地索引适合写多读少的场景,或者存储空间有限的场景;本地索引中索引数据和原数据都存储在同一台机器上,可以避免网络传输的资源消耗(全局索引是在所有的机器上面进行,所以会有网络传输的消耗,而由于无法提前确定数据在那个region中,所以读数据的时候,需要检查每个region上的数据从而会带来一些性能的消耗)
而对于本地索引,查询中无论是否指定hint,或者查询的列在不在索引表中,都会使用索引表
创建本地索引
CREATE LOCAL INDEX DIANXIN_LOCAL_IDEX ON DIANXIN(grid_id);
索引生效
select grid_id from dianxin where grid_id=‘117285031820040’;
索引生效
select * from dianxin where grid_id=‘117285031820040’;
覆盖索引(也就是介绍索引方式中的第二种)
覆盖索引就是把原数据的内容直接存储在索引数据表中,查询的时候不需要去hbase的原表中获取数据,直接返回查询结果
创建覆盖索引
CREATE INDEX DIANXIN_INDEX_COVER ON DIANXIN ( x,y ) INCLUDE ( county );
查询所有列 (索引未生效)
select * from dianxin where x=117.288 and y =31.822;
强制使用索引 (索引生效)
select /*+ INDEX(DIANXIN DIANXIN_INDEX_COVER) */ * from dianxin where x=117.288 and y =31.822;
查询索引中的列 (索引生效) mdn是DIANXIN表的RowKey中的一部分
select x,y,county from dianxin where x=117.288 and y =31.822;
select mdn,x,y,county from dianxin where x=117.288 and y =31.822;
查询条件必须放在索引中 select 中的列可以放在INCLUDE (将数据保存在索引中)
select /*+ INDEX(DIANXIN DIANXIN_INDEX_COVER) / x,y,count() from dianxin group by x,y;
Phoenix JDBC
配置文件中要添加:
<dependency>
<groupId>org.apache.phoenix</groupId>
<artifactId>phoenix-core</artifactId>
<version>4.15.0-HBase-1.4</version>
</dependency>
顺道要取消:
<!--<dependency>-->
<!--<groupId>org.apache.hbase</groupId>-->
<!--<artifactId>hbase-client</artifactId>-->
<!--<version>1.4.6</version>-->
<!--</dependency>-->
import java.sql.*;
public class Demo5Phoenix_JDBC {
public static void main(String[] args) throws SQLException {
Connection conn = DriverManager.getConnection("jdbc:phoenix:master,node1,node2:2181");
PreparedStatement ps = conn.prepareStatement("select /*+ INDEX(DIANXIN DIANXIN_INDEX) */ * from DIANXIN where end_date=?");
ps.setString(1, "20180503212649");
ResultSet rs = ps.executeQuery();
while (rs.next()) {
String mdn = rs.getString("mdn");
String start_date = rs.getString("start_date");
String end_date = rs.getString("end_date");
String x = rs.getString("x");
String y = rs.getString("y");
String county = rs.getString("county");
System.out.println(mdn + "\t" + start_date + "\t" + end_date + "\t" + x + "\t" + y + "\t" + county);
}
ps.close();
conn.close();
}
}
感谢阅读,我是啊帅和和,一位大数据专业大四学生,祝你快乐。