Clickhouse 入门_clickhouse 8123 9000-CSDN博客

本文详细介绍了ClickHouse的优缺点、性能优化、表引擎（尤其是MergeTree家族）、SQL语法、安装配置以及最佳实践。重点讲解了MergeTree引擎的工作原理、TTL、数据备份、内存管理与CPU频率控制等，旨在帮助读者快速掌握ClickHouse的使用和调优。

clickhouse 简介 ck是一个列式存储的数据库，其针对的场景是OLAP。OLAP的特点是：

数据不经常写，即便写也是批量写。不像OLTP是一条一条写
大多数是读请求
查询并发较少，不适合放置先生高并发业务场景使用 , CK本身建议最大一秒100个并发查询。
不要求事务

click的优点

为了增强压缩比例，ck存储的一列长度固，于是存储的时候，不用在存储该列的长度信息

使用向量引擎 , vector engine ，什么是向量引擎？ https://www.infoq.cn/article/columnar-databases-and-vectorization/?itm_source=infoq_en&itm_medium=link_on_en_item&itm_campaign=item_in_other_langs

clickhouse的缺点

不能完整支持事务
不能很高吞吐量的修改或删除数据
由于索引的稀疏性，不适合基于key来查询单个记录

性能优化

为了提高插入性能，最好批量插入，最少批次是1000行记录。且使用并发插入能显著提高插入速度。

访问接口

ck像es一样暴露两个端口，一个tcp的，一个http的。tcp默认端口：9000 ,http默认端口：8123。一般我们并不直接通过这些端口与ck交互，而是使用一些客户端，这些客户端可以是：

Command-line Client 通过它可以链接ck,然后进行基本的crud操作，还可以导入数据到ck 。它使用tcp端口链接ck
http interface : 能像es一样，通过rest方式，按照ck自己的语法，提交crud
jdbc driver
odbc driver

输入输出格式

ck能够读写多种格式做为输入(即insert)，也能在输出时(即select )吐出指定的格式。

比如插入数据时，指定数据源的格式为JSONEachRow

INSERT INTO UserActivity FORMAT JSONEachRow {"PageViews":5, "UserID":"4324182021466249494", "Duration":146,"Sign":-1} {"UserID":"4324182021466249494","PageViews":6,"Duration":185,"Sign":1}

读取数据时，指定格式为JSONEachRow

SELECT * FROM UserActivity FORMAT JSONEachRow

值得注意的时指定这些格式应该是ck解析或生成的格式，并不是ck最终的的存储格式，ck应该还是按自己的列式格式进行存储。ck支持多种格式，具体看文档 https://clickhouse.yandex/docs/en/interfaces/formats/#native

数据库引擎

ck支持在其中ck中创建一个数据库，但数据库的实际存储是Mysql，这样就可以通过ck对该库中表的数据进行crud, 有点像hive中的外表，只是这里外挂的是整个数据库。

假设mysql中有以下数据

mysql> USE test;
Database changed

mysql> CREATE TABLE `mysql_table` (
    ->   `int_id` INT NOT NULL AUTO_INCREMENT,
    ->   `float` FLOAT NOT NULL,
    ->   PRIMARY KEY (`int_id`));
Query OK, 0 rows affected (0,09 sec)

mysql> insert into mysql_table (`int_id`, `float`) VALUES (1,2);
Query OK, 1 row affected (0,00 sec)

mysql> select * from mysql_table;
+--------+-------+
| int_id | value |
+--------+-------+
|      1 |     2 |
+--------+-------+
1 row in set (0,00 sec)

在ck中创建数据库，链接上述mysql

CREATE DATABASE mysql_db ENGINE = MySQL('localhost:3306', 'test', 'my_user', 'user_password')

然后就可以在ck中，对mysql库进行一系列操作 file

表引擎(table engine)—MergeTree 家族

表引擎定义一个表创建是时候，使用什么引擎进行存储。表引擎控制如下事项

数据如何读写以及，以及存储位置
支持的查询能力
数据并发访问能力
数据的replica特征

MergeTree 引擎

建表时，指定table engine相关配置

CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster]
(
    name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1] [TTL expr1],
    name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2] [TTL expr2],
    ...
    INDEX index_name1 expr1 TYPE type1(...) GRANULARITY value1,
    INDEX index_name2 expr2 TYPE type2(...) GRANULARITY value2
) ENGINE = MergeTree()
[PARTITION BY expr]
[ORDER BY expr]
[PRIMARY KEY expr]
[SAMPLE BY expr]
[TTL expr]
[SETTINGS name=value, ...]

该引擎会数据进行分区存储。
数据插入时，不同分区的数据，会分为不同的数据段(data part), ck后台再对这些data part做合并，不同的分区的data part不会合到一起
一个data part 由有许多不可分割的最小granule组成

部分配置举例

ENGINE MergeTree() PARTITION BY toYYYYMM(EventDate) ORDER BY (CounterID, EventDate, intHash32(UserID)) SAMPLE BY intHash32(UserID) SETTINGS index_granularity=8192

granule

file gruanule是按主键排序后，紧邻在一起，不可再分割的数据集。每个granule 的第一行数据的主键作为这个数据作为这个数据集的mark 。比如这里的主键是(CounterID, Date)。第一个granule排序的第一列数据，其主键为a,1 ,可以看到多一个gruanle中的多行数据，其主键可以相同。