系统监控
机器
CPU,内存,硬盘容量,磁盘间平衡,网卡出入流量
o 服务
消费延迟/积压,数据流量速率,数据压缩,consumer_group
注册报备
kafka二次开发
消费Consumer SDK封装,自动更新集群配置,系统迁移对用
户透明。
o Partition Migration Tool开发,避免大批量Partition迁移导致网
络风暴和服务波动。
o 数据流量波动监控
hadoop存在的问题
o HDFS单Namenode压力大,响应慢,Callqueuelength高 o 队列分配混乱,高优任务没有资源保障
o 系统监控报警不完善,被动解决事故,无法主动风险预警
o 计算引擎重依赖Hive,任务效率低
o 缺乏统一任务调度平台
o 小文件问题:监控fsimage
大数据优化方向
最新推荐文章于 2023-12-27 18:04:08 发布
这篇博客关注于系统监控,特别是机器资源管理和服务性能。讨论了CPU、内存、硬盘和网络流量的监控,以及Kafka服务的延迟、消费组和数据流量管理。此外,指出了Hadoop在HDFS单点故障、队列分配和监控报警方面的挑战,并提到对计算引擎效率和统一任务调度平台的需求。同时,提到了小文件问题对HDFS的影响。
摘要由CSDN通过智能技术生成