MySQL分区表、HBase 融合秘术_hbase 单表多表，java面试linux面试题

2401_84434975

于 2024-04-21 03:25:47 发布

阅读量605

点赞数 11

分类专栏： 2024年程序员学习文章标签： mysql hbase java

本文链接：https://blog.csdn.net/2401_84434975/article/details/138018853

版权

2024年程序员学习专栏收录该内容

23 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Java开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Java开发知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip1024b （备注Java）

正文

(NULL, 10000001, 11111114, 4000, ‘2016-05-13 04:00:40’),
(NULL, 10000001, 11111115, 5000, ‘2016-05-13 05:00:50’),
(NULL, 10000001, 11111111, 1000, ‘2016-06-13 01:00:10’),
(NULL, 10000001, 11111112, 2000, ‘2016-06-13 02:00:20’),
(NULL, 10000001, 11111113, 3000, ‘2016-06-13 03:00:30’),
(NULL, 10000001, 11111114, 4000, ‘2016-06-13 04:00:40’),
(NULL, 10000001, 11111115, 5000, ‘2016-06-13 05:00:50’),
(NULL, 10000001, 11111111, 1000, ‘2016-07-13 01:00:10’),
(NULL, 10000001, 11111112, 2000, ‘2016-07-13 02:00:20’),
(NULL, 10000001, 11111113, 3000, ‘2016-07-13 03:00:30’),
(NULL, 10000001, 11111114, 4000, ‘2016-07-13 04:00:40’),
(NULL, 10000001, 11111115, 5000, ‘2016-07-13 05:00:50’),
(NULL, 10000001, 11111111, 1000, ‘2016-08-13 01:00:10’),
(NULL, 10000001, 11111112, 2000, ‘2016-08-13 02:00:20’),
(NULL, 10000001, 11111113, 3000, ‘2016-08-13 03:00:30’),
(NULL, 10000001, 11111114, 4000, ‘2016-08-13 04:00:40’),
(NULL, 10000001, 11111115, 5000, ‘2016-08-13 05:00:50’),
(NULL, 10000001, 11111111, 1000, ‘2016-09-13 01:00:10’),
(NULL, 10000001, 11111112, 2000, ‘2016-09-13 02:00:20’),
(NULL, 10000001, 11111113, 3000, ‘2016-09-13 03:00:30’),
(NULL, 10000001, 11111114, 4000, ‘2016-09-13 04:00:40’),
(NULL, 10000001, 11111115, 5000, ‘2016-09-13 05:00:50’),
(NULL, 10000001, 11111111, 1000, ‘2016-10-13 01:00:10’),
(NULL, 10000001, 11111112, 2000, ‘2016-10-13 02:00:20’),
(NULL, 10000001, 11111113, 3000, ‘2016-10-13 03:00:30’),
(NULL, 10000001, 11111114, 4000, ‘2016-10-13 04:00:40’),
(NULL, 10000001, 11111115, 5000, ‘2016-10-13 05:00:50’),
(NULL, 10000001, 11111111, 1000, ‘2016-11-13 01:00:10’),
(NULL, 10000001, 11111112, 2000, ‘2016-11-13 02:00:20’),
(NULL, 10000001, 11111113, 3000, ‘2016-11-13 03:00:30’),
(NULL, 10000001, 11111114, 4000, ‘2016-11-13 04:00:40’),
(NULL, 10000001, 11111115, 5000, ‘2016-11-13 05:00:50’),
(NULL, 10000001, 11111111, 1000, ‘2016-12-13 01:00:10’),
(NULL, 10000001, 11111112, 2000, ‘2016-12-13 02:00:20’),
(NULL, 10000001, 11111113, 3000, ‘2016-12-13 03:00:30’),
(NULL, 10000001, 11111114, 4000, ‘2016-12-13 04:00:40’),
(NULL, 10000001, 11111115, 5000, ‘2016-12-13 05:00:50’);

– 查看分区p201601数据
SELECT * FROM ord_order PARTITION(p201601);

– 组合成的 row key
SELECT CONCAT(user_id, 10000000000-UNIX_TIMESTAMP(create_time), goods_id)
FROM ord_order PARTITION(p201601);

结合HBase咯

创建HBase表 ord_order

由于版本兼容的问题，这边我需要先创建好HBase对应的表。不然会报不能自动创建 column family 的错误。

使用 hbase shell 创建 ord_order 表

hbase(main):033:0> create ‘ord_order’, {NAME => ‘cf1’}

使用 Sqoop 将MySQL的ord_order 表的 p201601 分区的数据导入HBase表。

/usr/local/sqoop/bin/sqoop import
–connect jdbc:mysql://192.168.137.11:3306/test
–username HH
–password oracle
–query ‘SELECT CONCAT(user_id, 10000000000-UNIX_TIMESTAMP(create_time), goods_id) AS order_id, order_price, create_time FROM ord_order PARTITION(p201601) WHERE $CONDITIONS’
–hbase-table ord_order
–hbase-create-table
–hbase-row-key order_id
–split-by order_id
–column-family cf1
-m 1

导入成功后就可以在MySQL上面将相关分区删除，并且创建之后需要的分区

ALTER TABLE ord_order
ADD PARTITION (PARTITION p201701 VALUES IN (201701));

ALTER TABLE ord_order DROP PARTITION p201601;

查看Hbase中导入的数据

hbase(main):001:0> scan ‘ord_order’
ROW COLUMN+CELL
10000001854736755011111115 column=cf1:create_time, timestamp=1479224942888, value=2016-01-13 05:00:50.0
10000001854736755011111115 column=cf1:order_price, timestamp=1479224942888, value=5000
10000001854737116011111114 column=cf1:create_time, timestamp=1479224942888, value=2016-01-13 04:00:40.0
10000001854737116011111114 column=cf1:order_price, timestamp=1479224942888, value=4000
10000001854737477011111113 column=cf1:create_time, timestamp=1479224942888, value=2016-01-13 03:00:30.0
10000001854737477011111113 column=cf1:order_price, timestamp=1479224942888, value=3000
10000001854737838011111112 column=cf1:create_time, timestamp=1479224942888, value=2016-01-13 02:00:20.0
10000001854737838011111112 column=cf1:order_price, timestamp=1479224942888, value=2000
10000001854738199011111111 column=cf1:create_time, timestamp=1479224942888, value=2016-01-13 01:00:10.0
10000001854738199011111111 column=cf1:order_price, timestamp=1479224942888, value=1000
5 row(s) in 0.5390 seconds

ROW KEY 设计详解

HBase中的row key为 user_id, 10000000000-UNIX_TIMESTAMP(create_time), goods_id 3个字段组成。

这边值得注意的是 10000000000-UNIX_TIMESTAMP(create_time), 这样设计的原因是为了让订单能按时间的倒序排列, 这样就符合越新的数据越先显示

如: 现在需要对用户 10000001 的订单进行分页, 每页两条数据, 并且按时间的倒序排序(最新订单最先显示)

hbase(main):003:0> scan ‘ord_order’, {COLUMNS=>[‘cf1:order_price’], ROWPREFIXFILTER=>‘10000001’, LIMIT=>2}
ROW COLUMN+CELL
10000001854736755011111115 column=cf1:order_price, timestamp=1479224942888, value=5000
10000001854737116011111114 column=cf1:order_price, timestamp=1479224942888, value=4000

点击下一页的数据:

hbase(main):004:0> scan ‘ord_order’, {COLUMNS=>[‘cf1:order_price’], LIMIT=>3, STARTROW=>‘10000001854737116011111114’}
ROW COLUMN+CELL
10000001854737116011111114 column=cf1:order_price, timestamp=1479224942888, value=4000
10000001854737477011111113 column=cf1:order_price, timestamp=1479224942888, value=3000
10000001854737838011111112 column=cf1:order_price, timestamp=1479224942888, value=2000
3 row(s) in 0.0260 seconds
上面获得了三行数据，在实际展现的时候去除第一行就好了，实际展示如下:
10000001854737477011111113 column=cf1:order_price, timestamp=1479224942888, value=3000
10000001854737838011111112 column=cf1:order_price, timestamp=1479224942888, value=2000

点击上一页

hbase(main):008:0> scan ‘ord_order’, {COLUMNS=>[‘cf1:order_price’], LIMIT=>3, STARTROW=>‘10000001854737477011111113’, REVERSED=>true}
ROW COLUMN+CELL
10000001854737477011111113 column=cf1:order_price, timestamp=1479224942888, value=3000
10000001854737116011111114 column=cf1:order_price, timestamp=1479224942888, value=4000
10000001854736755011111115 column=cf1:order_price, timestamp=1479224942888, value=5000
3 row(s) in 0.0640 seconds