1、java连接clickhouse中,尽量不用使用循环查,容易造成超时异常;
2、高并发查询clickhouse造成超时。
3、clickhouse适合大数据量,单查询。
4、高并发需要优化clickhouse的配置,具体包含
max_concurrent_queries 100个并发 1000个
uncompressed_cache_size 8G 总内存*2/3
5、对于数据去重,除了使用distinct函数外,还有uniq()、uniqCombined()、uniqHLL12()、uniqExact()近似算法函数。
6、对于数据同步,直接在命令行,使用remote()函数从远程其他数据库同步,此外还有clickhouse-copyier工具
7、可以直接将mysql数据同步至clickhouse中;(clickhouse-client --host xx.xx.xx.xx --port 8123)
CREATE DATAASE IF NOT EXISTS tt_test ENGINE=MySQL('172.11.11.11:3306', 'tt_test ', 'root', 'xxxxx');
INSERT INTO default.tt_test (c1, xxxx) SELECT c1,xxx FROM mysql('172.11.11.11:3306', 'tt_test', 'root', 'xxxxx') ;
INSERT INTO default.tt_test SELECT * FROM remote('172.11.11.11:8123', tt.test, '', '');
8、ck配置内存不能设置过大,否则,在进行一些需要申请超过操作系统限制的查询时,会出现OOM,导致ck被系统kill掉。
需要对ck的查询使用内存进行限制,通常需要使用ck所在服务器的百分之八九十即可。(users.xml---<max_memory_usage>)10737418240(10G)
9、针对常查询的字段,使用ORDER BY(c1, c2, xxx) 创建索引;
10、有Nullable的字段,不能创建索引,一些查询字段不要设置Nullable();
11、针对多个基础表,使用物化视图(MATERIALIZED),可以提高连表查询速度。
CREATE MATERIALIZED VIEW default.tt_test(
`c1` String,
`c2` Float64,
`c3` Float64,
`c4_date` Date
)ENGINE = SummingMergeTree() PARTITION BY c4_dateORDER BY c1
12、使用TTL,设置表数据过期自动删除的时间(TTL只有暂停功能、没有取消功能)
CREATE TABLE default.tt_test(
……
) ENGINE = MergeTree() PARTITION BY toYYYYMMDD(xx_date)
ORDER BY(c1, c2, c3, c4, c5, c6)
TTL c1+ toIntervalDay(30)
13、ck默认索引粒度(ck为clickhouse简称)
8192 = 1024 * 8
14、ck列设置空值转换
(1)空表,Nullable与非空类型可以互转;
(2)Nullable字段,如果记录不带有Null值,可以从Nullable转成非空类型;
(3)含有null值的字段不允许转成非空类型;
(4)Nullable字段不允许用于order by;
15、java连接ck时,运算尽量交给ck去处理(即sql可以写的复杂),不要并发或过于频繁访问ck(避免频繁查询小批量数据)。