ClickHouse删除数据之delete问题详解

背景

ClickHouse中一张数据表中一天有7000w数据,采用delete删除命令删除一周数据,SQL已经执行成功,短时间内查询原表数据仍然存在,没有被删除,过了一会之后,在查询数据删除成功。

SQL提交成功: 

短时间内【40s】查询数据仍然存在

 

经过查阅资料得知,ClickHouse提供了DELETE和UPDATE的能力,这类操作称为Mutation查询,可以看作ALTER语句的变种。虽然Mutation能最终实现修改和删除,但不能完全以通常意义上的UPDATE和DELETE来理解,我们必须认识到它的不同:

  • Mutation语句是一种“很重”的操作,更适用于批量数据的修改和删除;
  • 它不支持事务,一旦语句被提交执行,就会立刻对现有数据产生影响,无法回滚;
  • Mutation语句的执行是一个异步的后台过程,语句被提交之后就会立即返回。

由于一般测试的数据很少,DELETE操作给人的感觉和常用的OLTP数据库无异。但是我们心中应该要明白这是一个异步的后台执行动作。语句提交成功这并不代表具体逻辑已经执行完毕,它的具体执行进度需要通过system.mutations系统表查询。

DELETE语句的语法:

ALTER TABLE [db_name.]table_name DELETE WHERE filter_expr

数据删除的范围由WHERE查询子句决定,删除操作是这样实现的

在执行了DELETE操作之后数据目录发生了一些变化。【/chbase/data/default/test_table】每一个原有的数据目录都额外增加了一个同名目录,并且在末尾处增加了_【数字】的后缀。此外,目录下还多了一个名为mutation_【数字】.txt的文件,查看文件的内容如下所示:

# cat mutation_6.txt
format version: 1
create time: 2022-02-16 13:33:27 commands: DELETE WHERE ID = \'1\'

mutation_6.txt是一个日志文件,完整地记录了这次DELETE操作的执行语句和时间,而文件名的后缀_6与新增目录的后缀对应。那么后缀的数字从何而来呢?system.mutations系统表:

SELECT database,table,mutation_id,block_numbers.number as num,is_done 
FROM system.mutations

 综上,整个Mutation操作的逻辑就比较清晰了。在每ClickHouse执行一条ALTER DELETE语句,都会在mutations系统表中生成一条对应的执行计划,当is_done等于1时表示执行完毕。同时,在数据表的根目录下,会以mutation_id为名生成与之对应的日志文件用于记录相关信息。而数据删除的过程是以数据表的每个分区目录为单位,将所有目录重写为新的目录,新目录的命名规则是在原有名称上加上system.mutations.block_numbers.number。数据在重写的过程中会将需要删除的数据去掉。旧的数据目录并不会立即删除,而是会被标记成非激活状态(active为0)。等到MergeTree引擎的下一次合并动作触发时,这些非激活目录才会被真正从物理意义上删除。

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
ClickHouse删除数据的语法有多种方式。首先,可以使用delete语句来删除数据。但是需要注意的是,执行delete语句并不会立即删除数据,具体的删除时间取决于数据量的大小。在数据完全删除之前,查询仍然可以查询到数据。为了判断数据是否被完全删除,可以查询system.mutations表来查看删除操作的状态。例如,可以使用以下语句查询system.mutations表中的删除操作: ``` select * from system.mutations where database ='db_test' and table ='t_test' Format Vertical; ``` 另外,还可以使用alter table语句来删除数据。例如,可以使用以下语法删除数据: ``` alter table \[database\].\[table\] delete where \[condition\]; ``` 其中,\[database\]和\[table\]分别表示数据库和表的名称,\[condition\]表示删除数据的条件。注意,在使用delete语句时,一定要加上where条件,可以随便写一个条件来防止全表删除。例如: ``` alter table db_test.t_test delete where statdate > 0; ``` 此外,如果使用的是ReplicatedMergeTree引擎,可以使用以下语法删除数据: ``` alter table db_test.t_test on cluster default_cluster delete where statdate = 2022101221; ``` 以上是ClickHouse删除数据的一些语法示例。具体使用哪种语法取决于你的需求和数据表的引擎类型。 #### 引用[.reference_title] - *1* *2* *3* [【ClickHouseClickHouse 实用语法](https://blog.csdn.net/Zsigner/article/details/127388738)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值