HBase之全文检索Phoenix

最新推荐文章于 2024-05-22 14:51:18 发布

kalani呀

最新推荐文章于 2024-05-22 14:51:18 发布

阅读量767

点赞数 1

文章标签： hbase 全文检索大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_58625397/article/details/130384434

版权

HBase高手之路6-HBase之全文检索Phoenix

一、全文检索

在这里插入图片描述

二、全文检索工具phoenix简介

在这里插入图片描述

在这里插入图片描述

三、OLTP和OLAP

1. OLAP

在线分析处理系统，hadoop、hbase、hive提供支持

2. OLTP

在线事务处理系统，传统的关系数据库支持

四、Phoenix的安装

1. 下载

在这里插入图片描述

2. 上传服务器

在这里插入图片描述

3. 解压

在这里插入图片描述

4. 修改HBase的配置文件hbase-site.xml

在这里插入图片描述

5. 分发HBase的配置文件到其他节点

在这里插入图片描述

6. 复制依包

在这里插入图片描述

1) 复制phoenix的服务器端jar包到master和worker的hbase的lib文件夹下

复制到master1下

在这里插入图片描述

复制到master2下

在这里插入图片描述

在这里插入图片描述

复制到worker

在这里插入图片描述

在这里插入图片描述

2) 复制phoenix的客户端jar包到phoenix的客户端也就是node1的phoenix的bin文件夹下

在这里插入图片描述

3) 将配置好的hbase-site.xml文件复制到phoenix客户端也就是node1的phoenix的bin目录下

在这里插入图片描述

在这里插入图片描述

五、启动phoenix客户端

1. 启动zookeeper

在这里插入图片描述

2. 启动hdfs

在这里插入图片描述

3. 启动hbase

在这里插入图片描述

4. 启动phoenix

在这里插入图片描述

说明启动成功

5. 查看表

在这里插入图片描述

6. 查看HBase的web ui

在这里插入图片描述

六、Phoenix的基本使用

1. 创建表

语法：

create table if not exists 表名（

rowkey 名称类型 primary key,

列簇名.列名类型,

…

）;

在实际操作中，先用vscode之类的编辑工具，写好相关的语句，然后再复制到phoenix中运行

在这里插入图片描述

在这里插入图片描述

2. 查看表结构

语法：

！desc 表名
在这里插入图片描述

3. 删除表

语法：

drop table if exists 表名

在这里插入图片描述

4. 列名大小写的问题

l 如果在使用列簇、列名的时候没有添加双引号，Phoenix会自动转换为大写

在这里插入图片描述

l 如果要将列名改为小写，则要用双引号括起来

l 如果一旦加了双引号，后面任何使用该列的地方都得使用双引号，否则就会报错

5. 插入数据

在Phoenix中，插入数据并不是insert，而是upsert，相当于insert和update合起来的缩写，与HBase shell中的put相当于，如果数据存在则修改，如果不存在则插入

语法：

upsert into 表名(列簇名.列名,…) values(值1,…);

在这里插入图片描述

6. 查询数据

与标准的sql一样，在Phoenix中也是用select实现数据的查询
在这里插入图片描述

7. 修改数据

在Phoenix中，修改数据也使用upsert

语法：

upsert into 表名(列簇名.列名,…) values(值1,…);

在这里插入图片描述

8. 删除数据

在Phoenix中，删除数据与标准的sql一样，也是用delete from实现数据的删除

语法：

delete from 表名 where rowkey列名=值;

在这里插入图片描述

七、HBase的命名空间

1. 简介

类似与mysql和hive中的数据库，对数据进行分类存放，按照业务域来划分类别，这些不同的业务域就叫做命名空间（namespace）。

l 在HBase中有一个默认的命名空间叫做default，默认情况下，创建的表都在default命名空间下。

l 在HBase中还有一个命名空间，叫做hbase，用于存放系统的内建表（namespace，meta）

在这里插入图片描述

2. 创建命名空间

语法：

create_namespace 命名空间名

在这里插入图片描述

3. 列出命名空间

语法：

list_namespace

在这里插入图片描述

4. 查看命名空间详情

describe_namespace 命名空间名

在这里插入图片描述

5. 删除命名空间

语法：

drop_namespace 命名空间名

在这里插入图片描述

*注意：*

*删除命名空间时，必须在该命名空间下没有表，否则无法删除*

6. 在指定的命名空间下创建表

语法：

create “命名空间名:表名”,”列簇名”
在这里插入图片描述

在这里插入图片描述

*注意：*

*使用带有命名空间的表，用冒号将命名空间和表名连起来*

7. 添加数据到命名空间表

语法：

put “命名空间名:表名”,”rowkey”,”列簇名:列名”,值

在这里插入图片描述

八、列簇设计

HBase表的列簇的数量应该是越少越好，一般情况下，一个表只设计一个列簇

l 两个及以上的列簇，HBase的性能反而不好

l 一个列簇存储的数据达到Flush的阈值时，表中所有的列簇将同时进行Flush操作，这将带来不必要的IO开销，列簇越多，对整体性能的影响越大

九、版本设计

版本数一般设计为1，在一般情况下，如果对数据不做修改，只保留一个版本，可以节省大量的存储空间

在这里插入图片描述

十、数据压缩

1. 压缩算法

常见的压缩算法有LZO、SNAPPY、GZIP等，GZIP的压缩比最低，SNAPPY压缩比最高

2. 查看表的压缩算法

HBase中的表默认不适用压缩，进行数据压缩可以节省存储空间

在这里插入图片描述

3. 设置压缩算法

创建新表的时候
修改已有表的压缩算法
在这里插入图片描述

在这里插入图片描述

十一、ROWKEY设计原则

1. 避免使用递增行键/时序的数据

如果rowkey设计的都是按照顺序递增（例如：时间戳），这样当有很多的数据写入时，负载都在一台机器上。应该尽量将写入的数据均衡到各个RegionServer上。

2. 避免rowkey和列的长度过大

l 在hbase中，要访问一个值，需要rowkey、列簇和列名，如果这些太长，就会占用较大的内存。

l rowkey的最大长度是64kb**，建议越短越好**

3. 使用long等类型比String类型更节省空间

long类型为8个字节，可以保存非常大的无符号数据，例如：174489340923423422424。如果使用字符串保存的话，是按照一个字符一个字节的方式，需要3倍多的存储空间。

4. rowkey唯一性

l 设计rowkey时，必须保证它的唯一性。

l 如果不唯一，因为hbase采用key-value的存储方式，若向hbase的一张表中插入相同rowkey的数据，则原来的数据会被新的数据覆盖

5. 避免数据热点

1) 热点

是指大量的客户端直接访问（可能是读，也可能是写）集群的一个或者几个节点，可能会使得某个节点超出承受能力，出现宕机或者不可用的情况，导致整个集群性能的下降。

2) 预分区

默认情况下，一个hbase表只有一个分区（region），被托管在一个RegionServer中

在这里插入图片描述

3) start key和end key

每个region有两个重要的属性：start key和end key，标识这个region维护的rowkey的范围。如果只有一个region，这它们都为空，没有边界。所有的数据都会存放在这个region中。但数据很大的时候，会将region通过去一个mid key来分成两个region。

4) 预分区的个数

预分区的个数=节点的倍数，如果有三个节点，则预分区的个数为6。

默认region的大小为10G，假如进行预估接下来的一年时间数据的大小为10T，则需要的预分区数=10*1000G/10G=1000个region。

5) rowkey避免数据热点设计

l 反转策略

将rowkey翻转，或者直接将尾部的字符串提前到rowkey的开头

在这里插入图片描述

优点：实现简单

缺点：可以使得rowkey呈现一定的随机性，但是牺牲了rowkey的有序性，利于get操作，不利于scan操作。

l 加盐（salt）策略

在原来的rowkey的前面加上固定长度的随机数，这个随机数就叫做盐，这样使得rowkey具有随机性

优点：rowkey的随机性能保障数据在所有的regionserver之间的负载均衡

缺点：因为添加的是随机数，基于原来的rowkey查询时无法知道随机数是什么，会影响查询速度，不适合数据的读取

l 哈希（hash）策略

是对整个rowkey或其部分进行hash操作，然后将hash后的字符串替换真格rowkey或者rowkey的前缀部分，hash算法一般有MD5、sha1、sha256或者sha512D等

优点：同加油策略

缺点：也是不利于scan操作，因为打乱了rowkey原有的自然顺序

十二、设置预分区

1. 指定start key和end key来分区

1) 创建预分区

语法：

create “test:t1”,‘C1’,SPLITS=>[‘10’,‘20’,‘30’,‘40’]

在这里插入图片描述

2) hbase的web ui查看分区的占用情况

在这里插入图片描述

点击t1表，查看详情
在这里插入图片描述

在这里插入图片描述

2. 指定分区的数量、分区策略

1) 创建预分区

create “test:t2”,“C1”,{NUMREGIONS=>6,SPLITALGO=>‘HexStringSplit’}

在这里插入图片描述

2) hbase的web ui查看分区的占用情况

在这里插入图片描述

点击t2查看详情

在这里插入图片描述

3) 分区数量

一般按照数据量来预估或者根据节点数的倍数来设定

4) 分区策略

l HexStringSplit：rowkey是采用十六进制字符串作为前缀

l DecimalStringSplit：rowkey采用十进制数字字符串作为前缀

l UniformStringSplit：rowkey的前缀是随机的

十三、Phoenix的视图

Phoenix的视图就是对已经创建的HBase****表建立映射关系，从而实现对已有表的快速查询

1. 创建视图

语法：

create view if not exists “命名空间名”.“表名” (

“Rowkey名” 类型****r primary key,

“列簇”.“列名” 类型**,**

“列簇”.“列名” 类型

……

);

create view “phoenix_table_mapping_user_info_test”

(

user_id varchar primary key,

“name”.“firstname” varchar,

“name”.“lastname” varchar,

“company”.“name” varchar,

“company”.“address” varchar

);

在这里插入图片描述

2. 查询数据

在这里插入图片描述

select * from “命名空间名”.“表名” where 条件;

在这里插入图片描述

十四、二级索引

一般情况下，Hbase会根据rowkey建立索引，来提供查询的速度，这样的索引叫做一级索引。如果根据name进行查询，因为没有根据name建立索引，所以查询效率比较低，这是可以给name来创建二级索引。

1. 索引分类

l 全局索引

l 本地索引

l 覆盖索引

l 函数索引

1) 全局索引

l 全局索引适用于读多写少的业务

l 全局索引主要的负载发生在写入操作时，比如upsert、delete，Phoenix会拦截数据表的更新，构建索引更新，开销比较大

l 读取时，Phoenix会选择最快的能够查询出数据的索引。

l 全局索引一般要跟覆盖索引搭配使用

语法：

create index 索引名称 on 表名(列名1，列名2……);

举例：

create index idxname on ORDER_1(CATEGORY);
在这里插入图片描述

*注意：*

***Phoenix******中的索引，其实底层还是******Hbase****的表结构，这些索引表是专门用来加快查询速度。*

在这里插入图片描述

2) 本地索引

l 本地索引适合写操作频繁的场景

l 在本地索引中，索引数据和业务表数据存储在同一个服务器上，加快写入的速度

l 本地索引的数据是保存在一个影子列簇中

创建语法：

create local index 索引名称 on 表名(列名1，列名2……);

3) 覆盖索引

可以不需要在找到索引条目后返回到主表中，可以将关心的数据捆绑在索引行中，从而节省了读取的时间开销。

创建语法：

create index 索引名称 on 表名(列名1，列名2……) include(列名3);

create index idxcombo on ORDER_DETAIL1(CATEGORY,STATUS,PAY_MONEY) include(USER_ID);

在这里插入图片描述

在这里插入图片描述

4) 函数索引

适用于高版本的phoenix，可以基于任意表达式（函数）创建索引

语法

create index 索引名称 on 表名(函数名(列名1)，列名2……);

2. 创建索引

在这里插入图片描述

3. 根据索引查询数据

select USER_ID,ID,PAY_MONEY from ORDER_DETAIL1 where USER_ID=“494419”;

在这里插入图片描述

4. 删除索引

drop index 索引名 on 表名

drop index IDXCOMBO on ORDER_DETAIL1;

在这里插入图片描述

5. 查看索引

在这里插入图片描述

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
HBase之全文检索Phoenix

在线分析处理系统，hadoop、hbase、hive提供支持类似与mysql和hive中的数据库，对数据进行分类存放，按照业务域来划分类别，这些不同的业务域就叫做命名空间（namespace）。l 在HBase中有一个默认的命名空间叫做default，默认情况下，创建的表都在default命名空间下。l 在HBase中还有一个命名空间，叫做hbase，用于存放系统的内建表（namespace，meta）
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。