一、概况
集群环境如下表:
集群 | 机器 | 存储 | 内存 | CPU | 每日数据 | ||||
HW大数据平台 | 160台 | 6PB | 10TB | 8000 | 10亿 |
数据存储在kafka中,130个分区,采用sparkstreaming将数据清洗后,通过phoneix批量写入hbase。
二、kafka原因排查
sparkstreaming拉取kafka的时候,卡死在这一步,如下图所示:
sparkstreaming读取kafka的数据采用Direct 模式读取kafka数据,检查点在客户端维护offset,任务运行不是很稳定,偶尔会出现延迟几分钟。
- 推测执行