hbase的RegionServer内存配置为16G,每次在运行统计任务的时候总会导致RegionServer自动重启。查看web界面发现,运行过程中RegionServer的内存使用率已经达到95%以上,从而导致regionServer长时间垃圾回收且回收不掉。通过spark的history查看任务失败阶段从而定位问题代码。
在代码中有个foreachPartition操作用来查找hbase表中该记录是否已存在。读取该分区下所有的主键,然后一次性查询hbase,导致RegionServer的内存急剧上升。这是因为get一次性读取数据量过多导致块加载到内存且无法释放,占用过多的内存。即使将setCacheBlocks设置为false也出现同样的问题。因此,我们必须限制批量get的条数或者直接逐条查询。
最后:
scan/get的时候,尽量将设置不使用块缓存setCacheBlocks(false),除非本次任务频繁的查询相邻数据。批量get的时候最好不要一次发送所有的请求,应该分批次(500条一批次)发送。