11.VersionedCollapsingMergeTree
11.1.VersionedCollapsingMergeTree
11.2.案例
12.Log Engine Family
Log引擎:
StripeLog引擎
TinyLog引擎
12.2.案例
11.VersionedCollapsingMergeTree
11.1.VersionedCollapsingMergeTree
算法:
当ClickHouse合并数据片段时,它会删除满足如下条件的行:排序键相同,version相同,Sign不同。行的顺序无关紧要。
当CLickHouse插入数据时,它按排序键对数据进行排序:如果Version列不在排序键中,则ClickHouse会将其隐式地作为最后一个字段添加到排序键中,并将其用于排序。
11.2.案例
示例数据:
┌──────────────UserID─┬─PageViews─┬─Duration─┬─Sign─┬─Version─┐
│ 4324182021466249494 │ 5 │ 146 │ 1 │ 1 |
│ 4324182021466249494 │ 5 │ 146 │ -1 │ 1 |
│ 4324182021466249494 │ 6 │ 185 │ 1 │ 2 |
└─────────────────────┴───────────┴──────────┴──────┴─────────┘
建表:
DROP TABLE IF EXISTS UAct;
CREATE TABLE UAct
(
UserID UInt64,
PageViews UInt8,
Duration UInt8,
Sign Int8,
Version UInt8
)
ENGINE = VersionedCollapsingMergeTree(Sign, Version)
ORDER BY UserID;
插入数据:
INSERT INTO UAct VALUES (4324182021466249494, 5, 146, 1, 1);
INSERT INTO UAct VALUES (4324182021466249494, 5, 146, -1, 1),(4324182021466249494, 6, 185, 1, 2);
上面执行了两个INSERT语句,创建了两个不同的数据片段。如果使用一个INSERT语句,ClickHouse将创建一个数据片段,并且将永远不会执行任何合并。
查询数据:
xxxx2 :) select * from UAct;
SELECT *
FROM UAct
┌──────────────UserID─┬─PageViews─┬─Duration─┬─Sign─┬─Version─┐
│ 4324182021466249494 │ 5 │ 146 │ -1 │ 1 │
│ 4324182021466249494 │ 6 │ 185 │ 1 │ 2 │
└─────────────────────┴───────────┴──────────┴──────┴─────────┘
┌──────────────UserID─┬─PageViews─┬─Duration─┬─Sign─┬─Version─┐
│ 4324182021466249494 │ 5 │ 146 │ 1 │ 1 │
└─────────────────────┴───────────┴──────────┴──────┴─────────┘
3 rows in set. Elapsed: 0.009 sec.
xxxx2 :)
通过两个INSERT语句,创建了两个数据片段。SELECT查询是在两个线程中执行的,我们得到了随机顺序的行。由于尚未合并数据片段,折叠还未发生。我们无法预测ClickHouse在何时执行数据片段的合并。因此,我们需要使用聚合:
SELECT
UserID,
sum(PageViews * Sign) AS PageViews,
sum(Duration * Sign) AS Duration,
Version
FROM UAct
GROUP BY UserID, Version
HAVING sum(Sign) > 0;
结果如下:
┌──────────────UserID─┬─PageViews─┬─Duration─┬─Version─┐
│ 4324182021466249494 │ 6 │ 185 │ 2 │
└─────────────────────┴───────────┴──────────┴─────────┘
如果不适用聚合,可以对FROM子句使用FINAL修饰符进行强制合并:
xxxx2 :) select * from UAct FINAL;
SELECT *
FROM UAct
FINAL
┌──────────────UserID─┬─PageViews─┬─Duration─┬─Sign─┬─Version─┐
│ 4324182021466249494 │ 6 │ 185 │ 1 │ 2 │
└─────────────────────┴───────────┴──────────┴──────┴─────────┘
1 rows in set. Elapsed: 0.011 sec.
xxxx2 :)
要注意的是使用FINAL的这种数据查询的方法非常低效,不要在大表中使用这种方法。
12.Log Engine Family
这些引擎适用于快速写入许多小数据量(少于100万行)的表,在后续使用时整体读取表数据。
12.1.Log Engine Family:
StripLog
Log
TinyLog
通用属性:
1.数据存储在磁盘上
2.写入时将数据追加到文件末尾
3.支持并发数据访问的锁(写阻塞读/写,读不影响)
4.不支持mutation操作
5.不支持索引
6.不支持原子地写入数据
磁盘文件存储:
1.Log引擎:
# ll /var/lib/clickhouse/data/default/table_log/
-rw-r----- 1 clickhouse clickhouse 168 3月 14 01:38 duration.bin
-rw-r----- 1 clickhouse clickhouse 288 3月 14 01:38 __marks.mrk
-rw-r----- 1 clickhouse clickhouse 168 3月 14 01:38 pageviews.bin
-rw-r----- 1 clickhouse clickhouse 138 3月 14 01:38 sizes.json
-rw-r----- 1 clickhouse clickhouse 258 3月 14 01:38 userid.bin
2.StripeLog引擎
# ll /var/lib/clickhouse/data/default/table_stripelog/
-rw-r----- 1 clickhouse clickhouse 1044 3月 14 01:38 data.bin
-rw-r----- 1 clickhouse clickhouse 536 3月 14 01:38 index.mrk
-rw-r----- 1 clickhouse clickhouse 70 3月 14 01:38 sizes.json
3.TinyLog引擎
# ll /var/lib/clickhouse/data/default/table_tinylog/
-rw-r----- 1 clickhouse clickhouse 168 3月 14 01:37 duration.bin
-rw-r----- 1 clickhouse clickhouse 168 3月 14 01:37 pageviews.bin
-rw-r----- 1 clickhouse clickhouse 107 3月 14 01:37 sizes.json
-rw-r----- 1 clickhouse clickhouse 258 3月 14 01:37 userid.bin
Log Engine Family文件总结:
引擎 | 存储文件数 | 并行查询 | 效率 | mark文件 |
---|---|---|---|---|
Log | 每列一个文件 | 支持 | 高 | 有 |
StripeLog | 所有列一个文件 | 支持 | 较高 | 有 |
TinyLog | 每列一个文件 | 不支持 | 低 | 无 |
12.2.案例
(1)建表
DROP TABLE table_tinylog;
CREATE TABLE table_tinylog(
userid UInt64,
pageviews UInt8,
duration UInt8
)
ENGINE = TinyLog;
DROP TABLE table_log;
CREATE TABLE table_log(
userid UInt64,
pageviews UInt8,
duration UInt8
)
ENGINE = Log;
DROP TABLE table_stripelog;
CREATE TABLE table_stripelog(
userid UInt64,
pageviews UInt8,
duration UInt8
)
ENGINE = StripeLog;
(2)、插入数据
三张表插入同样的数据:
INSERT INTO table_tinylog VALUES (4324182021466249494, 1, 146),(4324182021466249414, 9, 156);
INSERT INTO table_tinylog VALUES (4324182021466249495, 2, 147),(4324182021466249424, 8, 157);
INSERT INTO table_tinylog VALUES (4324182021466249496, 3, 148),(4324182021466249434, 7, 158);
INSERT INTO table_tinylog VALUES (4324182021466249497, 4, 141),(4324182021466249444, 6, 151);
INSERT INTO table_tinylog VALUES (4324182021466249498, 5, 142),(4324182021466249454, 5, 152);
INSERT INTO table_tinylog VALUES (4324182021466249499, 6, 143),(4324182021466249464, 4, 153);
INSERT INTO table_log VALUES (4324182021466249494, 1, 146),(4324182021466249414, 9, 156);
INSERT INTO table_log VALUES (4324182021466249495, 2, 147),(4324182021466249424, 8, 157);
INSERT INTO table_log VALUES (4324182021466249496, 3, 148),(4324182021466249434, 7, 158);
INSERT INTO table_log VALUES (4324182021466249497, 4, 141),(4324182021466249444, 6, 151);
INSERT INTO table_log VALUES (4324182021466249498, 5, 142),(4324182021466249454, 5, 152);
INSERT INTO table_log VALUES (4324182021466249499, 6, 143),(4324182021466249464, 4, 153);
INSERT INTO table_stripelog VALUES (4324182021466249494, 1, 146),(4324182021466249414, 9, 156);
INSERT INTO table_stripelog VALUES (4324182021466249495, 2, 147),(4324182021466249424, 8, 157);
INSERT INTO table_stripelog VALUES (4324182021466249496, 3, 148),(4324182021466249434, 7, 158);
INSERT INTO table_stripelog VALUES (4324182021466249497, 4, 141),(4324182021466249444, 6, 151);
INSERT INTO table_stripelog VALUES (4324182021466249498, 5, 142),(4324182021466249454, 5, 152);
INSERT INTO table_stripelog VALUES (4324182021466249499, 6, 143),(4324182021466249464, 4, 153);
(3)、查看文件系统的数据目录
table_log表(基于Log引擎)
[root@xxxx2 ~]# ll /var/lib/clickhouse/data/default/table_log/
总用量 20
-rw-r----- 1 clickhouse clickhouse 168 11月 30 20:02 duration.bin
-rw-r----- 1 clickhouse clickhouse 48 11月 30 20:02 __marks.mrk
-rw-r----- 1 clickhouse clickhouse 168 11月 30 20:02 pageviews.bin
-rw-r----- 1 clickhouse clickhouse 137 11月 30 20:02 sizes.json
-rw-r----- 1 clickhouse clickhouse 258 11月 30 20:02 userid.bin
[root@xxxx2 ~]#
table_stripelog表(基于StripeLog引擎)
[root@xxxx2 ~]# ll /var/lib/clickhouse/data/default/table_stripelog/
总用量 12
-rw-r----- 1 clickhouse clickhouse 1044 11月 30 20:02 data.bin
-rw-r----- 1 clickhouse clickhouse 536 11月 30 20:02 index.mrk
-rw-r----- 1 clickhouse clickhouse 70 11月 30 20:02 sizes.json
[root@xxxx2 ~]#
table_tinylog表(基于TinyLog引擎)
[root@xxxx2 ~]# ll /var/lib/clickhouse/data/default/table_tinylog/
总用量 16
-rw-r----- 1 clickhouse clickhouse 168 11月 30 20:02 duration.bin
-rw-r----- 1 clickhouse clickhouse 168 11月 30 20:02 pageviews.bin
-rw-r----- 1 clickhouse clickhouse 107 11月 30 20:02 sizes.json
-rw-r----- 1 clickhouse clickhouse 258 11月 30 20:02 userid.bin
[root@xxxx2 ~]#