12_VersionedCollapsingMergeTree,Log Engine Family(Log引擎,StripeLog引擎,TinyLog引擎)

11.VersionedCollapsingMergeTree
11.1.VersionedCollapsingMergeTree
11.2.案例
12.Log Engine Family
Log引擎:
StripeLog引擎
TinyLog引擎
12.2.案例

11.VersionedCollapsingMergeTree

11.1.VersionedCollapsingMergeTree

算法:
当ClickHouse合并数据片段时,它会删除满足如下条件的行:排序键相同,version相同,Sign不同。行的顺序无关紧要。
当CLickHouse插入数据时,它按排序键对数据进行排序:如果Version列不在排序键中,则ClickHouse会将其隐式地作为最后一个字段添加到排序键中,并将其用于排序。

11.2.案例

示例数据:

┌──────────────UserID─┬─PageViews─┬─Duration─┬─Sign─┬─Version─┐
│ 4324182021466249494514611 |43241820214662494945146-11 |4324182021466249494618512 |
└─────────────────────┴───────────┴──────────┴──────┴─────────┘

建表:

DROP TABLE IF EXISTS UAct;
CREATE TABLE UAct
(
    UserID UInt64,
    PageViews UInt8,
    Duration UInt8,
    Sign Int8,
    Version UInt8
)
ENGINE = VersionedCollapsingMergeTree(Sign, Version)
ORDER BY UserID;

插入数据:

INSERT INTO UAct VALUES (4324182021466249494, 5, 146, 1, 1);
INSERT INTO UAct VALUES (4324182021466249494, 5, 146, -1, 1),(4324182021466249494, 6, 185, 1, 2);

上面执行了两个INSERT语句,创建了两个不同的数据片段。如果使用一个INSERT语句,ClickHouse将创建一个数据片段,并且将永远不会执行任何合并。

查询数据:

xxxx2 :) select * from UAct;

SELECT *
FROM UAct

┌──────────────UserID─┬─PageViews─┬─Duration─┬─Sign─┬─Version─┐
│ 43241820214662494945146-11 │
│ 4324182021466249494618512 │
└─────────────────────┴───────────┴──────────┴──────┴─────────┘
┌──────────────UserID─┬─PageViews─┬─Duration─┬─Sign─┬─Version─┐
│ 4324182021466249494514611 │
└─────────────────────┴───────────┴──────────┴──────┴─────────┘

3 rows in set. Elapsed: 0.009 sec. 

xxxx2 :)

通过两个INSERT语句,创建了两个数据片段。SELECT查询是在两个线程中执行的,我们得到了随机顺序的行。由于尚未合并数据片段,折叠还未发生。我们无法预测ClickHouse在何时执行数据片段的合并。因此,我们需要使用聚合:

SELECT
    UserID,
    sum(PageViews * Sign) AS PageViews,
    sum(Duration * Sign) AS Duration,
    Version
FROM UAct
GROUP BY UserID, Version
HAVING sum(Sign) > 0;

结果如下:

┌──────────────UserID─┬─PageViews─┬─Duration─┬─Version─┐
│ 432418202146624949461852 │
└─────────────────────┴───────────┴──────────┴─────────┘

如果不适用聚合,可以对FROM子句使用FINAL修饰符进行强制合并:

xxxx2 :) select * from UAct FINAL;

SELECT *
FROM UAct
FINAL

┌──────────────UserID─┬─PageViews─┬─Duration─┬─Sign─┬─Version─┐
│ 4324182021466249494618512 │
└─────────────────────┴───────────┴──────────┴──────┴─────────┘

1 rows in set. Elapsed: 0.011 sec. 

xxxx2 :)

要注意的是使用FINAL的这种数据查询的方法非常低效,不要在大表中使用这种方法。

12.Log Engine Family

这些引擎适用于快速写入许多小数据量(少于100万行)的表,在后续使用时整体读取表数据。

12.1.Log Engine Family:

StripLog
Log
TinyLog

通用属性:
1.数据存储在磁盘上
2.写入时将数据追加到文件末尾
3.支持并发数据访问的锁(写阻塞读/写,读不影响)
4.不支持mutation操作
5.不支持索引
6.不支持原子地写入数据

磁盘文件存储:
1.Log引擎:

# ll /var/lib/clickhouse/data/default/table_log/ 
-rw-r----- 1 clickhouse clickhouse 168 3月 14 01:38 duration.bin 
-rw-r----- 1 clickhouse clickhouse 288 3月 14 01:38 __marks.mrk 
-rw-r----- 1 clickhouse clickhouse 168 3月 14 01:38 pageviews.bin 
-rw-r----- 1 clickhouse clickhouse 138 3月 14 01:38 sizes.json 
-rw-r----- 1 clickhouse clickhouse 258 3月 14 01:38 userid.bin

2.StripeLog引擎

# ll /var/lib/clickhouse/data/default/table_stripelog/ 
-rw-r----- 1 clickhouse clickhouse 1044 3月 14 01:38 data.bin 
-rw-r----- 1 clickhouse clickhouse 536 3月 14 01:38 index.mrk 
-rw-r----- 1 clickhouse clickhouse 70 3月 14 01:38 sizes.json

3.TinyLog引擎

# ll /var/lib/clickhouse/data/default/table_tinylog/ 
-rw-r----- 1 clickhouse clickhouse 168 3月 14 01:37 duration.bin 
-rw-r----- 1 clickhouse clickhouse 168 3月 14 01:37 pageviews.bin 
-rw-r----- 1 clickhouse clickhouse 107 3月 14 01:37 sizes.json 
-rw-r----- 1 clickhouse clickhouse 258 3月 14 01:37 userid.bin

Log Engine Family文件总结:

引擎存储文件数并行查询效率mark文件
Log每列一个文件支持
StripeLog所有列一个文件支持较高
TinyLog每列一个文件不支持

12.2.案例

(1)建表

DROP TABLE table_tinylog;
CREATE TABLE table_tinylog(
    userid UInt64,
    pageviews UInt8,
    duration UInt8
)
ENGINE = TinyLog;
DROP TABLE table_log;
CREATE TABLE table_log(
    userid UInt64,
    pageviews UInt8,
    duration UInt8
)
ENGINE = Log;
DROP TABLE table_stripelog;
CREATE TABLE table_stripelog(
    userid UInt64,
    pageviews UInt8,
    duration UInt8
)
ENGINE = StripeLog;

(2)、插入数据
三张表插入同样的数据:

INSERT INTO table_tinylog VALUES (4324182021466249494, 1, 146),(4324182021466249414, 9, 156);
INSERT INTO table_tinylog VALUES (4324182021466249495, 2, 147),(4324182021466249424, 8, 157);
INSERT INTO table_tinylog VALUES (4324182021466249496, 3, 148),(4324182021466249434, 7, 158);
INSERT INTO table_tinylog VALUES (4324182021466249497, 4, 141),(4324182021466249444, 6, 151);
INSERT INTO table_tinylog VALUES (4324182021466249498, 5, 142),(4324182021466249454, 5, 152);
INSERT INTO table_tinylog VALUES (4324182021466249499, 6, 143),(4324182021466249464, 4, 153);INSERT INTO table_log VALUES (4324182021466249494, 1, 146),(4324182021466249414, 9, 156);
INSERT INTO table_log VALUES (4324182021466249495, 2, 147),(4324182021466249424, 8, 157);
INSERT INTO table_log VALUES (4324182021466249496, 3, 148),(4324182021466249434, 7, 158);
INSERT INTO table_log VALUES (4324182021466249497, 4, 141),(4324182021466249444, 6, 151);
INSERT INTO table_log VALUES (4324182021466249498, 5, 142),(4324182021466249454, 5, 152);
INSERT INTO table_log VALUES (4324182021466249499, 6, 143),(4324182021466249464, 4, 153);INSERT INTO table_stripelog VALUES (4324182021466249494, 1, 146),(4324182021466249414, 9, 156);
INSERT INTO table_stripelog VALUES (4324182021466249495, 2, 147),(4324182021466249424, 8, 157);
INSERT INTO table_stripelog VALUES (4324182021466249496, 3, 148),(4324182021466249434, 7, 158);
INSERT INTO table_stripelog VALUES (4324182021466249497, 4, 141),(4324182021466249444, 6, 151);
INSERT INTO table_stripelog VALUES (4324182021466249498, 5, 142),(4324182021466249454, 5, 152);
INSERT INTO table_stripelog VALUES (4324182021466249499, 6, 143),(4324182021466249464, 4, 153);

(3)、查看文件系统的数据目录
table_log表(基于Log引擎)

[root@xxxx2 ~]# ll /var/lib/clickhouse/data/default/table_log/
总用量 20
-rw-r----- 1 clickhouse clickhouse 168 11月 30 20:02 duration.bin
-rw-r----- 1 clickhouse clickhouse  48 11月 30 20:02 __marks.mrk
-rw-r----- 1 clickhouse clickhouse 168 11月 30 20:02 pageviews.bin
-rw-r----- 1 clickhouse clickhouse 137 11月 30 20:02 sizes.json
-rw-r----- 1 clickhouse clickhouse 258 11月 30 20:02 userid.bin
[root@xxxx2 ~]#

table_stripelog表(基于StripeLog引擎)

[root@xxxx2 ~]# ll /var/lib/clickhouse/data/default/table_stripelog/
总用量 12
-rw-r----- 1 clickhouse clickhouse 1044 11月 30 20:02 data.bin
-rw-r----- 1 clickhouse clickhouse  536 11月 30 20:02 index.mrk
-rw-r----- 1 clickhouse clickhouse   70 11月 30 20:02 sizes.json
[root@xxxx2 ~]#

table_tinylog表(基于TinyLog引擎)

[root@xxxx2 ~]# ll /var/lib/clickhouse/data/default/table_tinylog/
总用量 16
-rw-r----- 1 clickhouse clickhouse 168 11月 30 20:02 duration.bin
-rw-r----- 1 clickhouse clickhouse 168 11月 30 20:02 pageviews.bin
-rw-r----- 1 clickhouse clickhouse 107 11月 30 20:02 sizes.json
-rw-r----- 1 clickhouse clickhouse 258 11月 30 20:02 userid.bin
[root@xxxx2 ~]# 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

涂作权的博客

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值