Flink写500亿 天数据到远端Kafka排错、Flink优化记录。_flink lz4 压缩

环境改造

总体监控设计

由于排查问题为预处理集群数据量大的都存在该问题,故先把没有的监控搭建上。包含预处理Kafka Manager、实时程序 pushgetway,核心Kafka Manager。

刚好一个月前搭建了一个Promethues用于NiFi预处理的积压监控,网络也是互通的,故在此上面进行监控配置升级。

首先搭建KafkaManager在核心,一共两个KafkaManager用于核心和预处理节点的Kafka集群监控。然后在Promethues中配置各类Metrics指标抓取,最后由Grafana进行展示,效果如下图

在进行监控搭建的过程中,也发现了各种奇葩的报错与问题。比如核心集群与预处理集群的Kafka配置全为默认值,B预处理kafka集群与某其他程序在同一服务器,其中这个程序固定吃200G内存,但CPU占用不到5%,严重影响资源配比。

现在回过头来看看监控,最严重的的省份就是 A和B两个集群。我们这里挑最严重的A和B进行排查。

预处理Kafka集群

刚刚也说过了,在预处理的Kafka与核心的Kafka配置皆为默认值,直接登录进行修改配置吧。

登录Ambari进行Kafka更改

KafkaManager 各省配置

直接上部分更改配置:

内存使用从4G提到12G。

PS:预处理Kafka集群此前并没有配置log打印信息,但预处理Kafka集群问题不明显,只是会影响消费数据入库和消费速度,故没有继续精细化配置。

可以参考的kafka端配置有:

配置名 内容 备注
message.max.bytes 消息体的最大大小,单位是字节
num.network.threads broker 处理消息的最大线程数
num.io.threads broker处理磁盘IO 的线程数
background.threads 后台任务处理的线程数 删除文件线程池
queued.max.req
  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值