【presto 】presto OOM问题处理回顾和升级方案

kiraraLou

已于 2024-04-02 10:36:08 修改

阅读量4.3k

点赞数 3

分类专栏： presto 文章标签： hive big data hadoop

于 2022-03-16 14:21:44 首次发布

本文链接：https://blog.csdn.net/Mrerlou/article/details/123525334

版权

presto 专栏收录该内容

22 篇文章 6 订阅

订阅专栏

一、初始

老集群简单介绍：

presto 版本： 0.220
二次开发：添加了查询hive 视图的功能
集群数量：30台
内存配置：30G

我们生产环境的 presto 集群最近很不稳定，在业务高峰期时（早上大家都要查看报表），会短时间产生大量的大任务， presto 集群会大批量发生 OOM 的现象，导致 presto 服务挂掉。

由于 presto 服务的特性，当某个节点异常后，只要是在执行在这台节点的 sql 任务都会失败。这就会导致陷入了： 执行任务 -> 服务OOM -> 任务失败 -> 重试任务 -> 服务OOM -> 任务失败 的死循环。

二、简单优化

这时对于运维来说，最简单的只能是配置优化和扩容，于是进行了一些配置优化和节点的扩容。

但是只能是加快任务的执行时间，如之前一个任务执行3分钟，优化后变成2分钟，但是对于短时间的集中的大任务来说，这些优化，还是显得杯水车薪。

三、内存保护机制

此时查看文档，有个配置进入了眼帘，query.low-memory-killer.policy 内存不足保护机制，计划通过这个配置来实现当节点JVM内存不足时，杀掉占用最大内存的任务，来避免JVM OOM。但是有引发一系列问题详情如下：https://blog.csdn.net/Mrerlou/article/details/118024250

由这点引发了两个解决方案：

临时方案：去掉 JVM OOM kill 参数，虽然 presto 还会发生OOM ，但是只会影响到 OOM 的线程，也就是说个别任务会执行异常，但是没有发生OOM 的线程是不会受影响的。能够避免任务雪崩式异常，但是 presto OOM 后，服务会不稳定，有些连接无法正常释放，导致节点 http 连接数过大。所以还需要一个监控脚本，当发现presto 异常后，等到业务低峰期时，在重启下 presto 任务。
后期方案：1. 版本升级；2. 修改源码，让内存不足的判断策略能够提前触发。poolInfo.getFreeBytes() + poolInfo.getReservedRevocableBytes() 比如小于JVM内存的15% ~ 20%。来早的触发内存保护策略。

升级版本:

旧版本：0.220 → 新版本: 0.269

升级目的：

新版本对于老版本做了很多优化，提高服务稳定性。
新版本需要兼容老版本的功能，并且对业务方是透明的。
引入更为严格的内存判断策略。

新版本提升：

增加了很多函数
query.initial-hash-partitions 由默认的8 改为 100
对于hive的orc格式数据有更好的支持
hive可以根据文件大小进行称重拆分的支持，从而在文件较小时允许更深的工作人员拆分队列
修复了底层数据格式为parquet查询结果不一致问题
修复了大量bug
更多有关升级内容详情见:https://prestodb.io/docs/current/release/release-0.269.html

老版本二次开发详情如下：

presto 支持递归查询 hive视图（presto默认是不支持hive视图功能的）
presto password 认证插件（自开发插件，用于python 代码客户端的身份认证，只做认证，不涉及到权限）

为了兼容老版本，以及提高稳定性新版本改动如下：

	功能	目的
1	支持递归查询hive视图功能	兼容老版本
2	原生的password 认证插件	替代自开发插件
3	支持老版本 password 认证插件	兼容老版本
4	修改 general memory pool的内存不足判断策略	提高稳定性
5	修改log4j的版本，防止jni注入	安全性
6	使用jdk11	提高稳定性

升级方案：

此次升级无法采用滚动升级（新老服务不兼容），搭建一套新版本服务，将 presto 软连接挂到新版本上，然后停掉老版本集群，新版本集群沿用旧集群的配置。

升级时间：

由于无法采用滚动升级，所以升级时间选择在业务低峰期进行

升级步骤：

批量拷贝 presto 安装包到 /usr/local 目录下 => /usr/local/presto-server-0.269
批量拷贝 jdk11 安装包到 /home/rong 目录下 => /home/rong/jdk-11.0.14
添加软连接 ln -s /home/rong/jdk-11.0.14 jdk11
更新下发 worker 节点的config.properties 配置文件
更新下发 condition 节点config.properties 配置文件
初始化节点配置信息脚本，目的是更新 worker 节点的node.properties 配置文件中的host信息
停止旧集群服务
修改软连接到新版本服务
启动&验证新版本服务

升级影响：

redash 理论无影响
tableau 理论无影响
python 客户端代码理论无影响

回退方案：

将软连接重新挂回旧版本，重新启动旧集群。

二、支持HIVE视图

参考以下文章，并结合新版本进行移植适配（done）

https://github.com/prestodb/presto/pull/9031
https://blog.csdn.net/hjw199089/article/details/81415444

三、内存不足判断策略

1什么时候集群内存不足？

在这里插入图片描述

备注: 由于 RESERVED_POOL 配置文件中没有开启，所以判断条件就只剩 GENERAL_POOL 是否出现阻塞节点

2 什么条件判断节点是否阻塞（内存不足）？

在这里插入图片描述

if (poolInfo.getFreeBytes() + poolInfo.getReservedRevocableBytes() <= 0) {
    blockedNodes++;
}

目的：为了更快的触发内存保护策略。

运维天地 > presto 新版本升级详情 > image2022-1-13_13-46-45.png

修改：
原来是 poolInfo.getFreeBytes <= 0, 改为小于pool MaxByte的80%，提前触发内存保护策略
在这里插入图片描述

此功能是针对与 GENERAL_POOL的改动，并不能完全解决 OOM的问题，因为还有一部分内存是Presto 无法监控到的，所以节点还是有OOM的风险。

参考：

http://armsword.com/2020/02/18/presto-memory-kill-policy/
http://armsword.com/2018/05/22/the-memory-management-and-tuning-experience-of-presto/
http://armsword.com/2019/11/13/the-configuration-settings-of-presto-memory-management/