vertica集群增加节点（扩容）

最新推荐文章于 2024-04-08 17:27:52 发布

hmxz1024

最新推荐文章于 2024-04-08 17:27:52 发布

阅读量1.1k

点赞数 1

分类专栏： Vertica 文章标签： vertica扩容

本文链接：https://blog.csdn.net/hmxz2nn/article/details/100128038

版权

Vertica 专栏收录该内容

27 篇文章 9 订阅

订阅专栏

该博客翻译整理自：https://www.vertica.com/blog/expanding-cluster-new-nodes/

若想对原有的vertica数据库集群扩容（增加一些节点），可以参考以下步骤：

备份现有数据库
保险起见，操作前需要对数据进行备份。但是，如果数据库数据量特别巨大呢？
删除旧的或未使用的表分区
感觉这一步应该放在最前面，以减少备份的数据量。参考命令：
SELECT DROP_PARTITION(table-name, partition value);
验证是否已禁用本地分段。如果未禁用，请将其禁用。（本地分段顾名思义是将每个节点的数据分段，分段操作将加快数据的移动，这比重新分割投影有效，但是可能会带来一些其他问题，可参考：本地数据分段）
SELECT DISABLE_LOCAL_SEGMENTS();
检查集群的网络带宽和CPU性能。参考命令：
$ /opt/vertica/bin/vnetperf
$ /opt/vertica/bin/vcpuperf
扩容前先确保所有节点网络和CPU性能，这样可以确保你快速的完成节点的扩容（特别是数据的重分布操作）。
检查是否有足够的存储空间（至少是数据库大小的40％）来执行重新平衡。要获取每个节点的快照，请查看HOST_RESOURCES系统表中的以下字段：
SELECT host_name, disk_space_used_mb, disk_space_total_mb disk_space_free_mb FROM host_resources;
最小化要重新平衡的表上的任何DML操作（最好都给停了），当重新平衡锁定表时，加载失败。如果您的重新平衡可能与ETL作业竞争，请增加配置参数LockTimeout的值。（尽量不要在加载数据时进行扩容等操作）。
ALTER SESSION SET LockTimeout = value;
默认值为300s。
使用update_vertica来向集群中增加节点（如果你安装过vertica，执行这个命令应该不是问题）。使用db_add_node将节点添加到数据库。将节点添加到数据库后，Vertica会自动将更新的配置文件分发到群集中的其余节点，并启动在群集中重新平衡数据的过程。
/opt/vertica/sbin/update_vertica --add-hosts host(s) --rpm package
admintools -t db_add_node -d sampleDB -p 'password' –s node(s)
监视各个表的重新平衡进度
SELECT table_name, separated_percent, transferred_percent FROM REBALANCE_TABLE_STATUS;
检查重新平衡是否成功完成
SELECT operation_status FROM REBALANCE_OPERATIONS;
如果operation_status = COMPLETE，则重新平衡完成且没有错误。

至此，扩容成功。

在扩容过程中，最耗时的无疑是数据的重新平衡的过程，特别是当数据量很大时。
参考：数据库重新平衡时会发生什么

数据移动

Vertica在重新平衡期间移动的数据量取决于：

您拥有的节点数。
要添加的节点数。
未分段投影与分段投影的数量。例如，Vertica从伙伴节点复制未分段的投影，因为每个节点都包含数据的完整副本。

下图蓝色矩形表示现有节点，红色矩形表示新节点：

Vertica将节点插入到群集中最小化数据移动的位置。
Vertica将数据传输到新节点和现有节点。图中的箭头表示数据传输的方向以及移动的数据百分比。

例如，图形的顶行显示向四节点集群添加一个节点。Vertica在最小化数据移动的位置分发新节点。在四节点集群中，每个节点包含1/4的数据。对于五节点集群，每个节点必须包含1/5的数据。当群集从4个节点加倍到8个节点时，道理是相同的。