ClickHouse
涂作权的博客
To do what I want to do!
展开
-
使用datax将hive中的数据导入到clickhouse
{ "core": { "transport": { "channel": { "speed": { "byte": 10485760 } } } }, "job": { "setting": {原创 2021-05-08 09:51:50 · 2958 阅读 · 0 评论 -
20_clickhouse,硬件管理与优化(cpu,内存,网络,存储,操作系统配置),profile管理,Quotas设置,约束管理,查询权限,用户管理配置等
26.运维管理与优化26.1.硬件管理与优化26.1.1.CPU26.1.2.内存26.1.3.网络26.1.4.存储26.2.操作系统的配置26.2.1.CPU频率调整策略26.2.2.关闭透明大页26.2.3.禁用swap文件26.2.4.内核分配策略26.3.彻底理解ClickHouse的配置文件26.3.1.用户设置26.3.2.重复设置项的处理26.3.3.预处理文件26.3.4.ZooKeeper的关键优化点26.3.5.服务监控26.3.5.1.系统表26.原创 2020-12-17 01:07:40 · 5340 阅读 · 0 评论 -
19_clickhouse,数据查询与写入优化,分布式子查询优化,外部聚合/排序优化,基于JOIN引擎的优化,SQL优化案例,物化视图提速,查询优化常用经验法则,选择和主键不一样的排序键,数据入库优化
25.数据查询与写入优化25.1.分布式子查询优化25.1.1.分布式表的IN查询示例1(普通IN子查询、IN子查询为本地表)25.1.2.分布式表的IN查询示例2(普通IN子查询、IN子查询为分布式表)25.1.3.分布式表的IN查询示例3(GLOBAL IN子查询、IN子查询为分布式表)25.1.4.使用GLOBAL IN/GLOBAL JOIN注意事项25.2.外部聚合/排序优化25.3.基于JOIN引擎的优化25.4.SQL优化案例25.4.1.物化视图提速25.4.2.查询优化原创 2020-12-17 00:16:45 · 1201 阅读 · 1 评论 -
18_clickhouse副本同步与高可用功能验证,分布式表与集群配置,数据副本与复制表,ZooKeeper整合,创建复制表,副本同步机制,数据原子写入与去重,负载平衡策略,案例(学习笔记)
24.副本同步与高可用功能验证24.1.分布式表与集群配置24.2.数据副本与复制表24.3.ZooKeeper整合24.4.创建复制表24.5.副本同步机制24.6.数据原子写入与去重24.7.负载平衡策略24.8.案例24.副本同步与高可用功能验证此部分,上接:https://blog.csdn.net/tototuzuoquan/article/details/11102734224.1.分布式表与集群配置分布式表基于Distributed引擎创建,在多个分片上运行分布式查询。原创 2020-12-16 23:45:13 · 2568 阅读 · 0 评论 -
17_clickhouse分布式集群部署
23.ClickHouse分布式集群部署23.1.集群部署23.1.1.准备工作节点规划:主机名IP地址分片副本clickhouse1192.168.106.103shard1副本1clickhouse2192.168.106.104shard1副本2clickhouse3192.168.106.105shard2副本1clickhouse4192.168.106.106shard2副本2规划4个节点, 2个分片, 每个分片2个原创 2020-12-11 01:03:13 · 1294 阅读 · 0 评论 -
16_clickhouse,HDFS引擎,JDBC引擎
21.HDFS引擎21.1.HDFS引擎ClickHouse通过该引擎管理HDFS上的数据,从而与Apache Hadoop生态系统集成。指定表引擎:ENGINE = HDFS(URI, format)URI参数是HDFS文件URI,format参数指定文件格式。URI路径支持globs,这样该表是只读的:1.* : 替换任意字符,除了空字符和’/’。2.? : 替换任意单个字符。3.{some_string,another_string,yet_another_one} : 替换字符串列原创 2020-12-11 00:43:43 · 1052 阅读 · 0 评论 -
15_clickhouse,MySQL引擎;MySQL和ClickHouse中数据类型的对应关系
20.MySQL引擎20.1.MySQL引擎20.2.MySQL和ClickHouse中数据类型的对应关系20.3.示例20.MySQL引擎20.1.MySQL引擎MySQL引擎可实现对MySQL数据库的表执行插入和查询操作。ClickHouse表结构可以不同于原始的MySQL表结构。列名应当与原始MySQL表中的列名相同,但可以按任意顺序使用其中的一些列。列的数据类型可能与原始的MySQL表中的列类型不同,ClickHouse尝试进行数据类型转换。执行表引擎:ENGINE = MyS原创 2020-12-11 00:30:00 · 3105 阅读 · 2 评论 -
14_clickhouse,kafka引擎,kafka消息到ClickHouse的MergeTree引擎
19.Kafka引擎19.1.Kafka引擎Kafka引擎结合Kafka使用,可实现订阅或发布数据流。指定表引擎:ENGINE = Kafka()SETTINGS kafka_broker_list = 'host:port', kafka_topic_list = 'topic1,topic2,...', kafka_group_name = 'group_name', kafka_format = 'data_format'[,] [kafka_r原创 2020-12-11 00:16:08 · 1903 阅读 · 3 评论 -
13_clickhouse,Merge引擎,File引擎,External Data引擎,External Data引擎,Null Engine,URL引擎,Memory、Set、Buffer
13.Merge引擎13.1.Merge引擎13.2.案例14.File引擎14.1.File引擎14.2.案例15.External Data引擎15.1.External Data引擎16.Null Engine16.1.Null Engine16.2.案例17.URL引擎17.1.URL引擎18.其他引擎18.1.其他引擎:Memory、Set、Buffer18.2.案例Memory引擎Set引擎Buffer引擎13.Merge引擎13.1.Merge引擎根据原创 2020-12-11 00:01:28 · 545 阅读 · 0 评论 -
12_VersionedCollapsingMergeTree,Log Engine Family(Log引擎,StripeLog引擎,TinyLog引擎)
11.VersionedCollapsingMergeTree11.1.VersionedCollapsingMergeTree11.2.案例12.Log Engine FamilyLog引擎:StripeLog引擎TinyLog引擎12.2.案例11.VersionedCollapsingMergeTree11.1.VersionedCollapsingMergeTree算法:当ClickHouse合并数据片段时,它会删除满足如下条件的行:排序键相同,version相同,Sign不同原创 2020-12-10 23:39:07 · 491 阅读 · 0 评论 -
11_CollapsingMergeTree,(State行和Cancel行匹配示例),聚合查询,Cancel状态行取反的聚合查询
10.CollapsingMergeTree10.1.CollapsingMergeTree10.2.案例(State行和Cancel行匹配示例)10.3.示例2:聚合查询10.4.示例3:Cancel状态行取反的聚合查询10.CollapsingMergeTree10.1.CollapsingMergeTree1、在排序键(ORDER BY)的所有字段都相同的条件下,如果特定的字段具有1和-1的值,CollapsingMergeTree将异步删除(折叠)成对的行。没有配对的行将保留。2、能原创 2020-12-10 23:21:09 · 1126 阅读 · 1 评论 -
10_clickhouse,SummingMergeTree,AggregatingMergeTree(基于表,物化视图的使用)
8.SummingMergeTree8.1.SummingMergeTree8.2.案例9.AggregatingMergeTree9.1.AggregatingMergeTree9.2.案例1:基于表9.3.案例2:物化视图的使用8.SummingMergeTree8.1.SummingMergeTree根据排序键对数值类型的列进行汇总求和。相同排序键的行合并为一行。如果一个排序键对应大量的行,则该引擎能显著减少存储空间并加快数据查询的速度。建议该引擎与MergeTree引擎结合原创 2020-12-09 00:52:02 · 1740 阅读 · 0 评论 -
09_ClickHouse,ReplacingMergeTree,案例,根据排序键去重,使用版本参数的去重(学习笔记)
7.ReplacingMergeTree7.1.ReplacingMergeTree7.2.案例7.2.1.示例1:根据排序键去重7.2.2.示例2:使用版本参数的去重7.ReplacingMergeTree7.1.ReplacingMergeTree删除具有相同排序键值的重复项。数据去重是在合并期间进行的。后台的合并操作在未知的时间触发,因此用户无法对合并进行计划。可使用OPTIMIZE语句运行计划外的合并,但OPTIMIZE是一个很重的操作。ReplacingMergeTree适原创 2020-12-09 00:36:10 · 6612 阅读 · 2 评论 -
08_clickhouse主键/索引的工作机制(MergeTree的稀疏索引、索引的生成过程、索引的查询),数据标记的工作机制(数据存储、数据标记、数据查询、数据查询示例)(学习笔记)
5.主键/索引的工作机制5.1.MergeTree的稀疏索引5.2.索引的生成过程5.3.索引的查询6.数据标记的工作机制6.1.数据存储6.2.数据标记6.3.数据查询6.4.数据查询示例5.主键/索引的工作机制5.1.MergeTree的稀疏索引数据按照主键排序后存储的每个索引记录对应8192条记录(有index_grandularity指定),索引是常驻内存的。索引是常驻内存的。5.2.索引的生成过程索引由Primary Key指定。索引数据保存在primary.idx原创 2020-12-07 01:23:04 · 1508 阅读 · 0 评论 -
Clickhouse Engine kafka 将kafka数据同步clickhouse
本篇文章转自:https://blog.csdn.net/weixin_41461992/article/details/106790507起因由于需要做各种数据库摆渡到kafka的组件研究。其中clickhouse和kafka间的数据摆渡,根据官方给出的kafka引擎文档,便有了我这篇实践记录。相应的,该配置也非常简单。官方传送门: kafka engine clickhouse这边对数据库和kafka环境不再累述。一、开发环境kafka 2.4zookeeper 3.4.5click转载 2020-12-03 01:09:37 · 4207 阅读 · 2 评论 -
07_clickhouse、自定义分区及底层存储合并机制、自定义分区键、分区目录的命名规则、分区目录的合并过程、分区目录的合并过程、分区表达式指定、分区案例
4.自定义分区及底层存储合并机制4.1.自定义分区键4.2.分区目录的命名规则4.3.分区目录的合并过程4.4.分区目录的合并过程4.5.分区表达式指定4.6.分区案例4.自定义分区及底层存储合并机制4.1.自定义分区键1.分区是在建表时使用PARTITION BY expr子句指定。2.分区键可以是表列中的任何表达式。例如,按月指定分区:PARTITION BY toYYYYMM(date_column)。使用元组指定分区:PARTITION BY (toMonday(StartD原创 2020-12-02 01:06:32 · 2003 阅读 · 0 评论 -
06_clickhouse、表和列的TTL规则与实践、表和列的TTL、列级TTL、表级TTL、列级TTL示例、表级TTL示例
3.表和列的TTL规则与实践3.1.表和列的TTL3.2.列级TTL3.3.表级TTL3.4.列级TTL示例3.5.表级TTL示例3.表和列的TTL规则与实践3.1.表和列的TTL定义值的生命周期可以为整个表设置,也可以为每个单独的列设置。表级的TTL也可以指定在磁盘和卷之间自动移动数据的逻辑。设置TTL的表,必须包含Date或DateTime类型的字段。定义数据的生命周期,需要在这个日期字段使用操作符:TTL time_columnTTL time_column + inter原创 2020-12-02 00:51:04 · 2296 阅读 · 0 评论 -
05_ClickHouse、MergeTree系列引擎概述与存储结构、建表模板、建表语句、MergeTree设置、建表示例、数据存储、数据片段(data part)
2.MergeTree系列引擎概述与存储结构2.1.建表模板2.2.建表语句2.3.MergeTree设置2.4.建表示例2.5.数据存储2.6.数据片段(data part)2.MergeTree系列引擎概述与存储结构MergeTree系列引擎是ClickHouse中最强大的表引擎。数据按照片段被一批批写入表。数据片段在后台按照一定的规则进行合并。主要特征:数据按照主键排序稀疏索引快速检索数据数据分片增加查询性能数据副本ReplicatedMergeTree系列的引原创 2020-12-02 00:23:05 · 1013 阅读 · 0 评论 -
04_ClickHouse表引擎概述、MergeTree系列引擎、Log系列引擎、集成引擎、特定功能的引擎(学习笔记)
1.表引擎概述1.1.MergeTree系列引擎1.2.Log系列引擎1.3.集成引擎1.4.特定功能的引擎1.表引擎概述ClickHouse在建表时必须指定表引擎。表引擎主要分为四大类:MergeTree系列、Log系列、与其它存储/处理系统集成引擎、特定功能的引擎,每类引擎包含了多个具体的引擎,每种引擎均有其使用的场景。表引擎的功能决定了以下功能:数据的存储方式数据的存储位置并发数据访问是否可以使用索引是否可以使用分区是否支持数据副本1.1.MergeTree系原创 2020-12-01 23:51:53 · 573 阅读 · 0 评论 -
03_ClickHouse数据格式,TabSeparated、TSKV、CSV格式、JSON格式、Parquet、ORC、其它数据格式(Native,Pretty,Values,Vertical等)
1、TabSeparated1.1 TabSeparated1.2 TabSeparatedRaw1.3 TabSeparatedWithNames1.4 TabSeparatedWithNamesAndTypes2 TSKV3 CSV格式:CSV、CSVWithNames3.1 CSV格式3.1.1 准备表3.1.2 准备数据3.1.3 导入csv格式的表3.2 CSVWithNames1、TabSeparated这个系列的格式包括:TabSeparated、TabSeparat原创 2020-11-25 19:40:11 · 4459 阅读 · 0 评论 -
02_clickhouse安装,卸载,启动/关闭服务,交互式命令(数据库创建,数据导入,查询),批模式数据导入,MySQL接口操作ClickHouse,DBeaver可视化工具安装与使用(学习笔记)
1 ClickHouse安装安装文件清单clickhouse-client-${version}.noarch.rpmclickhouse-common-static-dbg-${version}.x86_64.rpmclickhouse-common-static-${version}.x86_64.rpmclickhouse-server-${version}.noarch.rpmclickhouse的安装只需要4个文件安装命令命令1: rpm -ivh *.rpm命令2:原创 2020-11-20 23:13:12 · 6639 阅读 · 0 评论 -
Clickhouse安装及使用/clickhouse-mysql安装
本文转自:https://blog.csdn.net/xyb1206/article/details/829826881.安装clickhouse环境ClickHouse对Debian/Ubuntu支持较好,但是工作当中服务器我们一般用CentOs。今天我们使用CentOs7来安装一下ClickHouse。操作系统版本:CentOS Linux release 7.5.1804 (Core)检查一下是否支持SSE 4.2指令集:grep -q sse4_2 /proc/cpuinfo &&转载 2020-11-20 14:39:00 · 1257 阅读 · 1 评论 -
01_ClickHouse概述,速度,分布式架构,列式存储,数据压缩,DBMS功能,有限支持DELETE、UPDATE功能,高吞吐写入功能,分布式计算,向量化执行引擎、架构、大数据处理架构
原创 2020-12-11 15:38:47 · 556 阅读 · 0 评论 -
Clickhouse 发展历史、Clickhouse 支持特性剖析、其中的一些功能、ClickHouse的不完美、ClickHouse应用场景、ClickHouse 和一些技的比较
一. 概述随着物联网IOT时代的来临,IOT设备感知和报警存储的数据越来越大,有用的价值数据需要数据分析师去分析。大数据分析成了非常重要的环节。当然近两年开启的开源大潮,为大数据分析工程师提供了十分富余的工具。但这同时也增加了开发者选择合适的工具的难度,尤其对于新入行的开发者来说。学习成本,框架的多样化和复杂度成了很大的难题。例如kafka,hdfs,spark,hive 等等组合才能产生最后的分析结果。把各种开源框架、工具、库、平台人工整合到一起所需工作之复杂,是大数据领域开发和数据分析师常有的抱怨之一转载 2020-11-03 20:38:27 · 1662 阅读 · 0 评论