ClickHouse生产遇到的问题

一,ClickHouse 引擎Merge时机与问题

项目使用ClickHouse对外提供数据,表引擎选型ReplicatedReplacingMergeTree。

该引擎在插入数据时,针对相同主键(order by字段)的数据进行去重,删除重复的数据,保留最新的数据,最新数据的依据可自定义,如插入ClickHouse时间,在建表时指定。

CREATE TABLE dev_test7.ods_sp_finance_events_local ON cluster default_cluster
(
    `index`                                     Int32          COMMENT '',
    ck_insert_time                              DateTime       DEFAULT now() COMMENT '写入CK时间'
) engine = ReplicatedReplacingMergeTree(
           '/clickhouse/tables/dev_te/{shard}/ods__events_local',
           '{replica}', ck_insert_time -- 这里指定判断最新数据的依据是 ck_insert_time
    )
      primary key (company_id)
      partition by (company_id, financial_event_group_id)
      order by (company_id, financial_event_group_id,event_type,`index`)
      settings replicated_deduplication_window = 0 ,parts_to_throw_insert = 1000, parts_to_delay_insert = 300;

项目数据更新采用全量覆盖方式,利用ReplicatedReplacingMergeTree合并新旧版本数据,但合并数据的时机不确定、不可控,目前有两种方式解决这个问题:

  • 1,使用optimize语句触发合并
OPTIMIZE TABLE example FINAL DEDUPLICATE;

实际测试时发现这种方式的结果不可预测,会出现合并不完全、合并时间延迟大的问题。

  • 2,查询时使用final关键字
select * from dev_test7.ods_sp_finance_events final

二,使用JDBC写入ClickHouse的空值问题

使用JDBC写入CH过程中,如果有空值,很容易发生如下错误:

ru.yandex.clickhouse.except.ClickHouseException: ClickHouse exception, code: 27, host: 10.49.0.46, port: 8123; Code: 27, e.displayText() = DB::Exception: Cannot parse input: expected \t before: \\N\t90136203343433728\tIT\t\\N\t\\N\t-2.78\tEUR\t\\N\t\\N\t\\N\t\\N\tRefundEventList\t\\N\t\\N\t\\N\tZ4Uoc3mzDsttLyXl4EONBA0OwGDc1sOLC4TDswprWuE\t\\N\tFBM\t\\N\t2\t\\N\tShipmentItemAdjustmentLi: (at row 1)

根本原因在ClickHousePreparedStatement在处理空值时使用"\N"对空值进行编码:

在这里插入图片描述

对于字符串类型这样处理是没有问题的,但对于Double、Long、Integer、DateTime等类型,CH不会认为”\N“为空,而是尝试结合类型长度将”\N“及其之后的一定长度字符进行转换,通常,这种转换会失败,抛出前面提到的错误。

解决办法:对可能为空的非字符串类型进行判空、赋初值。

三,clickhouse空值问题2

如果字段使用了Nullable类型,jdbc写入时可以是空,但不能是空字符串,因为如果是空字符串会导致在序列化时丢失这个字段的位置,导致反序列化时字段错位
在这里插入图片描述

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Docker部署ClickHouse生产环境单机是一个常见的技术实践,它可以帮助你在本地或服务器上轻松地管理和运行ClickHouseClickHouse是一款列式数据库系统,适用于大数据分析场景。以下是部署步骤和一些关键概念: 1. **安装 Docker **: 首先,确保你的系统上已经安装了Docker,如果没有,可以从Docker官网下载并按照官方指南进行安装。 2. **拉取 ClickHouse 镜像 **: 使用命令 `docker pull yandex/clickhouse-server` 来获取ClickHouse的官方镜像。 3. **运行容器 **: 运行一个基本的容器,例如: ``` docker run -d --name some-clickhouse -p 8123:8123 -p 9000:9000 -v /data:/var/lib/clickhouse yandex/clickhouse-server ``` `-d` 参数表示后台运行,`--name` 指定容器名称,`-p` 映射端口,`-v` 将主机目录挂载到容器中用于存储数据。 4. **配置环境 **: 在启动容器时,你可以通过环境变量如 `CLICKHOUSE_USER` 和 `CLICKHOUSE_PASSWORD` 设置账户信息。例如,`docker run ... -e CLICKHOUSE_USER=user -e CLICKHOUSE_PASSWORD=password`. 5. **监控与日志 **: 可以使用`docker logs` 查看容器的日志,使用`docker stats` 监控资源使用情况。为了长期监控,可以使用`docker-compose` 或其他工具来管理复杂的部署。 6. **数据迁移与备份 **: 如果有现有数据,可能需要在启动容器前将数据文件复制到挂载的目录。 7. **高级设置 **: 对于生产环境,可能需要调整更多的配置选项,比如内存大小、CPU限制、日志级别、磁盘配额等。这可以通过修改容器的启动参数或者使用 `-e` 后面的键值对来完成。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小手追梦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值