ArgoDB Holodesk表格式对应的小文件合并

最新推荐文章于 2024-06-19 11:35:09 发布

若愚致远

最新推荐文章于 2024-06-19 11:35:09 发布

阅读量547

点赞数 4

分类专栏： ArgoDB 文章标签：数据库

本文链接：https://blog.csdn.net/andarly/article/details/137838417

版权

ArgoDB 专栏收录该内容

16 篇文章 1 订阅

订阅专栏

背景介绍

Holodesk表与Torc表delta跟base文件产生的条件不一样，其所有的写操作都会在底层写入一个新的文件，而不是写入已有文件中。其中，insert操作生成新的base文件, update/delete操作生成新的delta文件。当进行频繁的小数据量的写入操作，会导致出现大量的 base/delta 文件，并且内容很少（KB 级别），因此为了避免出现IO开销大，影响性能，内存占用高等一系列问题，小文件合并功能至关重要。

Holodesk表的合并由compact service组件执行，需要单独安装。

常见的小文件合并功能是通过计算引擎服务来执行 Compact 任务的，可能会占用部分计算资源。新推出的Compact Service则在组件级别做了隔离，开启后不会影响到Quark的查询计算性能，合并效果更好。

Compact类型

Holodesk中的Compact类型主要分为三类：minor，major，full。

Minor

将一个base文件下的多个delta文件合并成一个新的delta文件，并apply到原有的base文件上：

命令：alter table <table_name> compact 'minor';

Major

将一个base文件和它的所有delta文件合并成一个新的base文件：

命令：alter table <table_name> compact 'major';

Full

将多个小的base文件合并成一个新的base文件，并且会一并删除delta文件：

命令：alter table <table_name> compact 'full';

执行方式

A. 同步compact（自动）

安装了compact service，且服务正常的话，compact的任务由compactservice来做。

默认是 compact‘full’，用户可以根据业务特点，自定义小文件自动合并策略，平衡小文件数量和合并开销。

holodesk.compaction.trigger.enabled

用于控制是否通过Compact Service 服务执行 Compact 任务。若设置为 false，则由计算引擎服务执行 Compact 任务。

引入版本：2.1	作用域：session、global
默认值：true	范围：true、false

作用：Compact Service 是 ArgoDB 上的小文件合并专用服务。设置该参数TRUE，能够通过 Compact Service 进行小文件合并任务，小文件合并效果更好。

影响：设置该参数False，则通过计算引擎服务执行 Compact 任务，可能占用计算资源。

限制：如果 Compact Service 服务服务/异常，那么该参数失效，此时通过计算引擎服务执行 Compact 任务。

holodesk.fullcompaction.filesize.threshold

用于控制一个 Base 文件是否属于小文件，大于阈值的 Base 文件不是小文件，不会进行 Full Compact

引入版本：2.1	作用域：global（通过 Manager 对 Compact Service 设置参数）
默认值：134217728（128M）	范围：单位Byte

影响：阈值越大，越容易触发 Full Compact

holodesk.fullcompaction.filenum.threshold

用于控制full compact触发阈值，当小文件数量（block）超过阈值时合并

a. 如果是非分区分桶表，那么相同 tablet 上的小文件超过阈值时合并

b. 如果是分区表，那么相同分区，相同 tablet 的小文件超过阈值时合并

c. 如果是分桶表，那么相同bucket，相同 tablet 的小文件超过阈值时合并

d. 如果是分区分桶表，那么相同分区、相同 bucket、相同 tablet 的小文件超过阈值时合并

引入版本：2.1	作用域：global（通过 Manager 对 Compact Service 设置参数）
默认值：3	范围：[1,+∞)

作用：full compaction 通过合并 base 文件来减少小文件数量

影响：阈值越小，越容易触发 Full Compact

holodesk.majorcompaction.delta.filesize.ratio

用于控制 Major Compact 触发阈值，当 delta size/ base size 超过阈值时合并

引入版本：2.1	作用域：global（通过 Manager 对 Compact Service 设置参数）
默认值：0.2	范围：(0,1)

作用：Major Compact 通过合并 Base 文件以及 Delta 文件来减少小文件数量

影响：阈值越小，越容易触发 Major Compact

holodesk.minorcompaction.delta.filenum.threshold

用于控制 Minor Compact 触发阈值，当一个 Base 文件的 Delta 文件数量超过阈值时，触发 delta 文件之间的合并。

引入版本：2.1	作用域：global（通过 Manager 对 Compact Service 设置参数）
默认值：3	范围：[1,+∞)

作用：Minor Compact 通过合并 Base 文件的多个 Delta 文件来减少小文件数量

影响：阈值越小，越容易触发 Minor Compact

B. 异步compact（手动）

通过 DBA Service 的存储 > 数据库菜单页面，我们可以查看各表当前的小文件数量。在特殊情况下，例如未合理设置自动合并策略或某个表因历史原因小文件数量过多，我们可以通过手动触发下述命令，立即执行小文件合并任务。

alter table <table_name> compact ‘full’;
alter table <table_name> compact ‘major’;
alter table <table_name> compact ‘minor’;

ArgoDB 执行 SQL 任务时，其 Task 数量与数据文件数量（base文件）有关，因此 full compact 能够通过减少数据文件数量来减少 Task 数。

接下来，我们介绍如何通过 DBA Service 查看表的小文件数量，找出异常表后并执行手动 Compact 操作。

登录 Transwarp Manager 平台。
选择仪表盘 > 集群页面，单击 DBAService 进入服务详情界面。
选择角色，然后查看 DBA Service Server 角色网址并访问。
输入账号和密码，填写验证码后进入 DBAService 首页，然后单击对应的 Qaruk 服务。
在左侧导航栏，单击存储 > 数据库，然后在统计标签页筛选表类型（如 Holodesk），并基于小文件数量排序，查看是否存在小文件异常多的表。

6. 单击相关库名后，下拉查看对应的表名，随后登录 ArgoDB 数据库，在业务低峰期执行下述格式的命令，对指定的表执行合并小文件任务。

ALTER TABLE <table_name> compact "full"|"major"|"minor";

full：将 base 文件合并成一个 base 文件,并且删除无用的 delta 文件
major：将 base 及其 delta 文件合并，生成一个新的 base 文件
minor：将 base 的 delta 文件合并，生成一个新的 delta 文件

【示例】
对 demodb 数据库中的 customer 表执行 FULL COMPACT 操作：
ALTER TABLE demodb.customer COMPACT "full";

7. 操作完毕后，可单击顶部的实时标签，查找对应表名以查看小文件数量变化。

8. 检查自动 Compact 相关参数设置，使其覆盖本次出现的表未被自动 Compact 特例情况。

管理 Compact 任务

通过 DBA Service，您可以便捷地监控和管理 Compact 任务，为您的后续操作（例如调整 Compact 频率）提供数据支持。

登录 Transwarp Manager 平台。
选择仪表盘 > 集群页面，单击 DBAService 进入服务详情界面。
选择角色，然后查看 DBA Service Server 角色网址并访问。
输入账号和密码，填写验证码后进入 DBAService 首页。
单击 Compact Service 卡片。

6. 单击左侧导航栏的查询，可查看 Compact 任务的执行情况，例如任务类型、是否成功、耗时等信息。

通过查询语句的前缀可判断任务类型：
前缀为 Checking：表示为 Compact 检查操作，系统会定期检查表是否满足小文件触发条件。一旦满足，则会自动创建小文件合并任务。
前缀为 isCompact: true：表示 Compact 执行操作，执行小文件合并。

7. 单击左侧导航栏的存储 > 合并，基于阈值来查看是否存在 Compact 慢的表。

本案例中，我们选择最近 7 天中，Compact 任务执行超过 5 分钟，且表的小文件数量大于 10 的条件进行筛选，列出小文件数量最多的 3 个表，我们可以基于此信息判断是否存在较多 Compact 慢的表，然后调整 Compact 参数，例如频率、资源分配等。

注意事项

①　分桶表：跨分桶不能进行合并

②　分区表：跨分区不能进行合并

若愚致远

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
ArgoDB Holodesk表格式对应的小文件合并

当进行频繁的小数据量的写入操作，会导致出现大量的 base/delta 文件，并且内容很少（KB 级别），因此为了避免出现IO开销大，影响性能，内存占用高等一系列问题，小文件合并功能至关重要。本案例中，我们选择最近 7 天中，Compact 任务执行超过 5 分钟，且表的小文件数量大于 10 的条件进行筛选，列出小文件数量最多的 3 个表，我们可以基于此信息判断是否存在较多 Compact 慢的表，然后调整 Compact 参数，例如频率、资源分配等。菜单页面，我们可以查看各表当前的小文件数量。
复制链接

扫一扫

专栏目录