Phoenix（一）Phoenix的特性与简单入门

最新推荐文章于 2022-06-26 21:48:55 发布

Think-More

最新推荐文章于 2022-06-26 21:48:55 发布

阅读量997

点赞数

分类专栏： Phoenix 文章标签： Phoenix

原文链接：https://yq.aliyun.com/articles/253038?spm=a2c4e.11153940.0.0.4555629ea8aa20

版权

Phoenix 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、特性

Phoenix作为应用层和HBASE之间的中间件,以下特性使它在大数据量的简单查询场景有着独有的优势

二级索引支持(global index + local index)
编译SQL成为原生HBASE的可并行执行的scan
在数据层完成计算，server端的coprocessor执行聚合
下推where过滤条件到server端的scan filter上
利用统计信息优化、选择查询计划（5.x版本将支持CBO）
skip scan功能提高扫描速度

一般可以使用以下三种方式访问Phoenix

JDBC API
SQuirrel

二、数据类型与DML语法

数据类型

序号	类型名	对应的java类型	取值范围	说明
1	INTEGER	INTEGER	[-2147483648， 2147483647]	binary表示是4个byte的整数, 符号位被翻转（为了让负数排在正数前面）
2	UNSIGNED_INT	Integer	[ 0,2147483647]	binary表示是4个byte的整型。这个类型主要用作序列化映射到已经存在Hbase表的数据，适配HBase Bytes.toBytes(int)方法。
3	BIGINT	Long	[-9223372036854775808 ，9223372036854775807]	binary表示是8位byte的Long类型, 符号位被翻转（为了让负数排在正数前面）
4	UNSIGNED_LONG	Long	[0 ,9223372036854775807]	binary表示是8位byte的Long类型。这个类型主要用作序列化映射到已经存在Hbase表的数据，适配HBase Bytes.toBytes(long)方法。
5	TINYINT	Byte	[-128,127]	binary表示是单个byte，为了排序符号位被翻转。
6	UNSIGNED_TINYINT	Byte	[0,127]	binary表示是单个byte。这个类型主要用作序列化映射到已经存在Hbase表的数据，适配 HBase Bytes.toBytes(byte)方法。
7	SMALLINT	Short	[-32768,32767]	binary表示是两个byte，为了排序符号位被翻转。
8	UNSIGNED_SMALLINT	Short	[0,32767]	binary表示是两个byte。这个类型主要用作序列化映射到已经存在Hbase表的数据，适配HBase Bytes.toBytes(short)方法。
9	FLOAT	Float	[-3.402823466 E + 38,3.402823466 E + 38]	binary表示是四个byte, 为了排序符号位被翻转。
10	UNSIGNED_FLOAT	Float	[0,3.402823466 E + 38]	binary表示是四个byte。这个类型主要用作序列化映射到已经存在Hbase表的数据，适配HBase Bytes.toBytes(float)方法。
11	DOUBLE	DOUBLE	[-1.7976931348623158 E + 308,1.7976931348623158 E + 308]	binary表示是8个byte，为了排序符号位被翻转。
12	UNSIGNED_DOUBLE	DOUBLE	[0,1.7976931348623158 E + 308]	binary表示是8个byte。这个类型主要用作序列化映射到已经存在Hbase表的数据，适配HBase Bytes.toBytes(double)方法。
13	DECIMAL(precision,scale)	BigDecimal	最大精度38位	binary是可比较的边长格式。如果用于rowkey。当它不是最后一列时，比较终结符号是null byte
14	BOOLEAN	BOOLEAN	0或1	binary表示0是flase, 1是true
15	TIME	java.sql.Time	格式： yyyy-MM-dd hh:mm:ss	二进制表示是8位byte的long类型数据, 数据内容是客户端时区自1970-01-01 00:00:00 UTC到现在的毫秒大小（GMT）。此类型与 SQL 92中的Time类型不兼容
16	DATE	java.sql.Date	格式： yyyy-MM-dd hh:mm:ss	二进制表示是8位byte的long类型数据, 数据内容是客户端时区自1970-01-01 00:00:00 UTC到现在的毫秒大小（GMT）。此类型与 SQL 92中的DATE类型不兼容。
17	TIMESTAMP	java.sql.Timestamp	格式：yyyy-MM-dd hh:mm:ss[.nnnnnnnnn]	二进制表示是8位byte的long类型和4位整型纳秒。8位byte的long类型数据是客户端时区自1970-01-01 00:00:00 UTC到现在的毫秒大小（GMT）。
18	UNSIGNED_TIME	java.sql.Time	格式： yyyy-MM-dd hh:mm:ss	二进制表示是8位byte的long类型数据, 数据内容是客户端时区自1970-01-01 00:00:00 UTC到现在的毫秒大小（GMT）。这个类型主要用作序列化映射到已经存在Hbase表的数据，适配HBase Bytes.toBytes(long)方法。
19	UNSIGNED_DATE	java.sql.Date	格式： yyyy-MM-dd hh:mm:ss	二进制表示是8位byte的long类型数据, 数据内容是客户端时区自1970-01-01 00:00:00 UTC到现在的毫秒大小（GMT）。这个类型主要用作序列化映射到已经存在Hbase表的数据，适配HBase Bytes.toBytes(long)方法。
20	UNSIGNED_TIMESTAMP	java.sql.Timestamp	格式：yyyy-MM-dd hh:mm:ss[.nnnnnnnnn]	二进制表示是8位byte的long类型和4位整型纳秒。8位byte的long类型数据是客户端时区自1970-01-01 00:00:00 UTC到现在的毫秒大小（GMT）。这个类型主要用作序列化映射到已经存在Hbase表的数据，适配HBase Bytes.toBytes(long)方法。
21	VARCHAR（precisionInt）	java.lang.String	变长，可选最大长度	对应UTF-8字符通过HBase Bytes.toBytes(String)转换的二进制。如果用于rowkey。当它不是最后一列时，比较终结符号是null byte
22	CHAR ( precisionInt )	java.lang.String	定长	对应UTF-8字符通过HBase Bytes.toBytes(String)转换的二进制。
23	BINARY ( precisionInt )	byte[]	定长	定长byte数组
24	VARBINARY	byte[]	变长	变长byte数组
25	ARRAY [dimension]	java.sql.Array	-	Java原始类型数组，只支持一维数组。例如：VARCHAR ARRAY， CHAR(10) ARRAY [5]，INTEGER []，INTEGER [100]

DML语法

1. SELECT

Screen_Shot_2017_11_21_at_23_47_23

从一个或者多个表中查询数据。
LIMIT(或者FETCH FIRST) 在ORDER BY子句后将转换为top-N查询。
OFFSET子句指定返回查询结果前跳过的行数。

示例

SELECT * FROM TEST LIMIT 1000;
SELECT * FROM TEST LIMIT 1000 OFFSET 100;
SELECT full_name FROM SALES_PERSON WHERE ranking >= 5.0
    UNION ALL SELECT reviewer_name FROM 
    CUSTOMER_REVIEW WHERE score >= 8.0

2. UPSERT VALUES

Screen_Shot_2017_11_22_at_08_37_30

此处upsert语义有异于标准SQL中的Insert，当写入值不存在时，表示写入数据，否则更新数据。其中列的声明是可以省略的，当省略时，values指定值的顺序和目标表中schema声明列的顺序需要一致。

ON DUPLICATE KEY是4.9版本中的功能，表示upsert原子写入的语义，在写入性能上弱于非原子语义。相同的row在同一batch中按照执行顺序写入。

示例

UPSERT INTO TEST VALUES('foo','bar',3);
UPSERT INTO TEST(NAME,ID) VALUES('foo',123);
UPSERT INTO TEST(ID, COUNTER) VALUES(123, 0) ON DUPLICATE KEY UPDATE COUNTER = COUNTER + 1;
UPSERT INTO TEST(ID, MY_COL) VALUES(123, 0) ON DUPLICATE KEY IGNORE;

3. UPSERT SELECT

Screen_Shot_2017_11_24_at_08_35_23

从另外一张表中读取数据写入到目标表中，如果数据存在则更新，否则插入数据。插入目标表的值顺序和查询表指定查询字段一致。当auto commit被打开并且select子句没有聚合时，写入目标表这个过程是在server端完成的，否则查询的数据会先缓存在客户端再写入目标表中（phoenix.mutate.upsertBatchSize表示从客户端一次commit的行数，默认10000行）。

示例

UPSERT INTO test.targetTable(col1, col2) SELECT col3, col4 FROM test.sourceTable WHERE col5 < 100
UPSERT INTO foo SELECT * FROM bar;

4. DELETE

Screen_Shot_2018_03_12_at_17_05_29

删除选定的列。如果auto commit打开，删除操作将在server端执行。

示例

DELETE FROM TABLENAME;
DELETE FROM TABLENAME WHERE PK=123;
DELETE FROM TABLENAME WHERE NAME LIKE '%';

Think-More

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Phoenix（一）Phoenix的特性与简单入门

一、特性 Phoenix作为应用层和HBASE之间的中间件,以下特性使它在大数据量的简单查询场景有着独有的优势二级索引支持(global index + local index) 编译SQL成为原生HBASE的可并行执行的scan 在数据层完成计算，server端的coprocessor执行聚合下推where过滤条件到server端的scan filter上利用统计信息优...
复制链接

扫一扫