1 问题描述
在项目中搭建Hive On Spark,在执行查询的数据量比较大时或者查询出来的数据再次插入到DWD层时,经常性的报如下两个错误:
-
1 ERROR org.apache.parquet.hadoop.ParquetRecordReader: [aafa2e51-4efa-4437-9b07-86b8d55570f0 HiveServer2-Handler-Pool: Thread-47]: Can not initialize counter due to context is not a instance of TaskInputOutputContext, but is org.apache.hadoop.mapreduce.task.TaskAttemptContextImpl

-
2
Could not connect to 主机名:10000(code THRIFTTRANSPORT):TTransportExportException(‘Could not connect to 主机名:10000’,)

2 解决方案
修改HiveServer2的Java堆栈大小,CDH6.2.1版本默认是50M,较小
运行时出现如上错误或者运行比较卡顿的情况下,将此值根据自己的系统配置进行调大

在Hive On Spark项目中,当处理大量数据查询或数据插入时,遇到HiveServer2异常退出的问题,表现为ParquetRecordReader初始化失败和连接主机超时。解决方案是调整HiveServer2的Java堆栈大小,增大内存配置以适应系统需求,避免内存溢出和运行卡顿。
最低0.47元/天 解锁文章
2366

被折叠的 条评论
为什么被折叠?



