Clickhouse (二引擎)

最新推荐文章于 2024-10-16 16:31:31 发布

Fatel_

最新推荐文章于 2024-10-16 16:31:31 发布

阅读量77

点赞数

文章标签： clickhouse

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Fatel_/article/details/132269762

版权

表引擎:

TinyLog (生产环境不考虑一般测试学习时使用)

以列文件的形式保存在磁盘上,不支持索引,没有并发控制,一般保存少量数据的小表

Memory (同理生产环境下不考虑使用)

内存引擎,数据以未压缩的原始形式保存在内存当中,服务器重启数据就会消失,同样的它也不支持索引,所有在简单的查询下会有非常高的i性能,一般用到的地方不多,大多都是用来测试,需要高性能,同时数据量又不大的场景下

Merge Tree (合并树家族 )***重点***

Clickhouse 中最强大的表引擎当属Merge Tree(合并树)引擎及该系列(*Merge Tree)中的其他引擎,支持索引和分区,地位可以相当于innodb之于Mysql

MergeTree 是以列文件+索引文件+表定义文件组成如果设置了分区这些文件就会保存到不同的分区目录中

建表语句:

=========================================================================

create table t_order_mt(

id Ulnt32, (字段名加类型 Ulnt是无符号的INT型32位)

sku_id String,

total_amount Decimal(16.2),

create_time Datetime

)engine = MergerTree (这里指定表引擎)

partition by toYYYYMMDD(create_time) (分区字段就跟HIVE一样通常是按时间分区这是把时间进行了转换但是hive目录是在HDFS Clickhouse在磁盘)

(分区的作用:降低扫描的范围,优化查询速度如果不填使用一个分区)

primary key (id) (主键 : 这里的主键并不唯一没有唯一性是可以重复的)

order by (id,sku_id) (排序字段)

=========================================================================

当我们建完表以后我们可以通过磁盘地址查看这张表

cd /var/lib/clickhouse/ 命令这里必须使用ROOT用户否则没权限

这里我们可以看到有很多了文件这里我们需要注意的是data (中这里是表数据存储路径)和 metadata (表的结构信息)

这里data里面的两个文件是我们的数据库名然后我们进入后可以看到我们的表名

分区目录 20200601_1_1_0 第一个数值是代表最小分区块的编号第二个数值是最大编号第三个数值是合并等级

detached 是卸载默认是空的

format_version.txt 是格式版本

数据就存在于 data.bin下 (mrk是标记文件) 这里因为版本差异这个版本显示的是这样 (仅对当前引擎合并树引擎)

这个就是这个分区里有几条数据这也是它查询快的原因因为它直接是记录好的

(这里因为我们提前插入了数据建完表就插入了数据如果没有插入数据这里是不存在的)

这一部分我们主要做一个了解:

Metadata 表数据结构 :

当我们进入到metadata目录下时:

我们同样可以看到两个虚拟机存在的数据库,进入后就可以查看库里存在的表:

这里SQL可以看到建表的SQL语句也是后续查看表结构的基础

(这部分有一个了解就可以)

数据写入和分区合并:

任何一个批次的数据写入都会产生一个临时分区,不会纳入任何一个已有的分区,写入后的某个时刻,会自动合并操作

也可以手动操作直接合并把临时分区的数据合并到已有的分区中,合并语句:

Optimize table (表名) final;

这里我们二次插入数据会呈现这种情况:

这里我们可以看到数据重复存在了而且在不同的分区中(因为我们建表的时候确定的是按时间分区,所以我们可以看到同一的时间在不同的分区这里也是因为还没有进行合并导致的)

这里我们可以先看磁盘文件发生的变化:

我们可以看到分区增多了但是我们也可以看到它的规律根据上面所学的我们可以进行一个解读

然后我们进行一个手动合并操作:

进行完以后我们看结果:

这里我们可以看到已经合并了

=========================================================================

而且我们可以看到我们建表时把ID设置为了主键但是ID还是存在了重复出现的情况

这里就是它的主键不唯一性跟以往的主键存在的差异

=========================================================================

但是在文件存储的地方我们可以明显看到产生到的新文件

这里的文件后续自动合并的时候老文件会消失保留最新文件就相当于剔除了

手动合并优化语法:

当然这里我们也可以选择单个分区手动合并就是代码里加上partition

Optimize table 表名 partition 字段名(20200601) final;

这里我们讲一下 Primary key (主键 1.它不是唯一的可以重复 2.存在索引)

通过我们上面的操作可以得出结论:

Clickhouse的主键和其他数据库存在差异,它只提供了数据的一级索引,但是却不是唯一约束,这也就意味着时可以存在相同的Primary key的数据的

主键的设定主要是依据查询语句中的 WHERE条件

根据条件通过对主键进行二分查找,能够定位到对应的 index granularity(索引颗粒)(稀疏索引)避免了全表扫描

这里我们可以把它理解为他把索引部分也就是主键那部分又分成了几个区间分区当我们查找的时候根据WHERE条件进行一个一级判定能够更准确快速的查找到相应区间分区数据

稀疏索引好处:

可以用很少的索引数据,定位更多的数据,代价就是只能定位到索引粒度的第一行,然后在进行一点扫描

拓展:二级索引

二级索引的功能在 20.1.24版本之前是被标注为实验型的,在这个版本之后是默认开启的,这里我们要注意

使用二级索引我们要在建表的时候就进行声明:及我们在根据我们上面的的建表语句的基础上:

create table t_order_mt2(

id Ulnt32, (字段名加类型 Ulnt是无符号的INT型32位)

sku_id String,

total_amount Decimal(16.2),

create_time Datetime

INDEX a total_amount TYPE minmax GRANULARITY 5

=========================================================================

这里我们重点关注 GRANULARITY 这里是设定二级索引对于一级索引颗粒的粒度

这里对接上面的稀疏索引:相当于把稀疏索引又进行了一次整合分区形成了二层索引进一步优化查询速度

=========================================================================

)engine = MergerTree (这里指定表引擎)

partition by toYYYYMMDD(create_time) (分区字段就跟HIVE一样通常是按时间分区这是把时间进行了转换但是hive目录是在HDFS Clickhouse在磁盘)

(分区的作用:降低扫描的范围,优化查询速度如果不填使用一个分区)

primary key (id) (主键 : 这里的主键并不唯一没有唯一性是可以重复的)

order by (id,sku_id) (排序字段)

这个二级索引我们要看应用场景合理的应用

order by (这个是必须存在的)

这里我们记住一个最左匹配原则

order by 设定了分区内的数据按照那些字段进行排序进行有序保存

order by 是MergeTree 中唯一的一个必填项,甚至比primary key还重要,因为当用户不设定主键情况下,很多处理会依照order by 的字段进行处理 (比如后的的去重和汇总这里我们就不展开讲了)

这里注意如果如果需要设定主键那么这个主键必须是order by 字段的前缀字段

就像我们上面 order by 字段是 id 和 sku_id 那么主键就必须是 id 或者是 id 和sku_id

这里就是最左匹配原则主键必须是 order by 字段设定的最左边的那一个, 也就是第一个,否则就不成立这一点尤为重要

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Fatel_ CSDN认证博客专家 CSDN认证企业博客

码龄1年

12: 原创

67万+: 周排名

181万+: 总排名

1349: 访问

: 等级

121: 积分

0: 粉丝

1: 获赞

10: 评论

1: 收藏

私信

关注

热门文章

最新评论

Clickhouse (四)
CSDN-Ada助手: 恭喜你写了第12篇博客！看到你对Clickhouse的持续探索和分享，我十分欣喜。你的文章总是能够为读者提供深入的见解和有用的信息。希望你能继续保持创作的热情，继续分享你在Clickhouse方面的见解和经验。或许你可以考虑探讨一些Clickhouse在大数据分析中的应用案例，或是深入剖析Clickhouse的性能优化方法。期待你的下一篇博客！
Clickhouse (三 TTL数据)
CSDN-Ada助手: 恭喜您第11篇博客的问世！标题“Clickhouse (三 TTL数据)”引起了我的兴趣。我很高兴看到您对于这个主题的深入研究，并将其分享给读者。您的博客内容一定会对那些对Clickhouse以及TTL数据感兴趣的读者们有所帮助。在下一篇博客中，或许您可以考虑进一步探索Clickhouse中TTL数据的应用场景，或者提供一些实际案例，这样读者们能更好地理解如何在实际项目中应用这些概念。当然，这只是一个谦虚的建议，我相信您一定会继续以您独特的方式创作出更多优质的内容。期待不久后能够阅读到您的下一篇博客！
Spark (理论篇)
CSDN-Ada助手: 恭喜您撰写了第8篇博客《Spark (理论篇)》！阅读您的博客让我对Spark有了更深刻的理解。您的文章结构清晰，讲解详尽，使得复杂的理论概念也变得易于理解。我期待您未来更多的创作。或许在下一篇博客中，您可以探索一些Spark实践案例，结合理论知识给出具体应用的示例，这样读者能更好地将理论知识转化为实践经验。再次感谢您的分享，期待您的下一篇博文！
Clickhouse (一)
CSDN-Ada助手: 恭喜您写了第7篇博客！标题为“Clickhouse (一)”，内容看起来非常有趣。我很高兴看到您持续创作，并分享有关Clickhouse的知识。希望您能继续坚持下去，为我们带来更多关于Clickhouse或其他相关话题的深入探讨。也许您可以考虑在接下来的博客中，分享一些Clickhouse的实际应用案例或者与其他数据存储方案的对比，这样读者们能更好地了解其在实践中的价值。期待您的下一篇博客！
SparkSQL(三)(案例)
CSDN-Ada助手: 恭喜您写完了第6篇博客！标题“SparkSQL(三)(案例)”听起来非常吸引人。您的持续创作精神令人钦佩。在该博客中，您似乎探讨了SparkSQL的案例应用。这样的实际案例对读者来说非常有价值，帮助我们更好地理解和应用SparkSQL。接下来，我想提供一些建议供您参考。您可以考虑在下一篇博客中深入探讨一些高级的SparkSQL特性，或者分享一些使用SparkSQL解决复杂问题的实际经验。另外，您也可以考虑与读者互动，邀请他们分享自己在SparkSQL方面的挑战和解决方案。这样一来，您的博客将更具互动性，读者也能从中获得更多的启发和帮助。非常期待您下一篇博客的发布！请继续保持创作的热情和努力，我相信您会取得更大的成就。谢谢您的分享！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。