大数据开发:Kafka集群资源规划

Kafka作为一种高吞吐量的分布式消息发布订阅系统,在Hadoop大数据平台当中,常常被当做消息总线来使用,通过Hadoop的并行加载机制来统一线上和离线的消息处理,与集群联系紧密。今天的大数据开发分享,我们就来讲讲Kafka集群资源规划。
 

大数据学习:Kafka集群资源规划


一、操作系统

Kafka源码既包括Scala也有Java源文件,属于JVM体系的大数据框架。Java是跨平台语言,源码编译后可以运行在不同操作系统对应的JVM上面。而在实际生产中,部署Kafka集群最多的仍然是Linux Server。

当然,从目前的市场现状来说,Hadoop大数据开发和平台运行,也是以Linux环境为主的,Kafka作为Hadoop生态的重要组件,也同样如此。

二、磁盘

磁盘规划对Kafka来说非常重要,一般就是在机械磁盘和SSD固态硬盘之间做选择。

机械磁盘:成本低且容量大,但易损坏

SSD:性能优势大,不过单价高

由于Kafka Log顺序写读的特性,使用普通机械硬盘就可以了。Kafka大量使用磁盘,但它使用的方式多是顺序读写操作,一定程度上规避了机械磁盘最大的劣势,即随机读写操作慢的问题。

关于磁盘阵列(RAID)的优势:

提供冗余的磁盘存储空间

提供负载均衡

RAID的两个优势对于任何一个分布式系统都很有吸引力。不过,Kafka实现了多副本机制来提高可靠性;通过对数据进行分区存储(读写),也在软件层面实现了负载均衡。

可以不搭建RAID,普通磁盘即可

机械磁盘完全胜任生产Kafka环境

三、网络带宽

客观上来说,对于Kafka,网络容易成为瓶颈,因为需要通过网络进行大量的数据传输,无论是生产者向Broker发送消息,还是消费者从Broker消费消息,又或者Follower副本从Leader副本同步消息(一般为内网)。

普通的以太网络,带宽主要有两种:1Gbps的千兆网络和10Gbps的万兆网络,特别是千兆网络应该是一般公司网络的标准配置。

关于大数据开发学习,Kafka集群资源规划,以上就为大家做了简单的介绍了。Kafka在实时消息流处理上,近些年来是越来越受到重视的,对于Kafka的学习,也值得花费时间去钻研。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值