大数据开发：Kafka集群资源规划

最新推荐文章于 2024-01-22 14:52:05 发布

加米谷大数据张老师

最新推荐文章于 2024-01-22 14:52:05 发布

阅读量439

点赞数

分类专栏：大数据文章标签：大数据 hadoop kafka 消息队列

原文链接：http://www.dtinone.net/news/2820.html

版权

大数据专栏收录该内容

333 篇文章 14 订阅

订阅专栏

Kafka作为一种高吞吐量的分布式消息发布订阅系统，在Hadoop大数据平台当中，常常被当做消息总线来使用，通过Hadoop的并行加载机制来统一线上和离线的消息处理，与集群联系紧密。今天的大数据开发分享，我们就来讲讲Kafka集群资源规划。

大数据学习：Kafka集群资源规划

一、操作系统

Kafka源码既包括Scala也有Java源文件，属于JVM体系的大数据框架。Java是跨平台语言，源码编译后可以运行在不同操作系统对应的JVM上面。而在实际生产中，部署Kafka集群最多的仍然是Linux Server。

当然，从目前的市场现状来说，Hadoop大数据开发和平台运行，也是以Linux环境为主的，Kafka作为Hadoop生态的重要组件，也同样如此。

二、磁盘

磁盘规划对Kafka来说非常重要，一般就是在机械磁盘和SSD固态硬盘之间做选择。

机械磁盘：成本低且容量大，但易损坏

SSD：性能优势大，不过单价高

由于Kafka Log顺序写读的特性，使用普通机械硬盘就可以了。Kafka大量使用磁盘，但它使用的方式多是顺序读写操作，一定程度上规避了机械磁盘最大的劣势，即随机读写操作慢的问题。

关于磁盘阵列（RAID）的优势：

提供冗余的磁盘存储空间

提供负载均衡

RAID的两个优势对于任何一个分布式系统都很有吸引力。不过，Kafka实现了多副本机制来提高可靠性；通过对数据进行分区存储（读写），也在软件层面实现了负载均衡。

可以不搭建RAID，普通磁盘即可

机械磁盘完全胜任生产Kafka环境

三、网络带宽

客观上来说，对于Kafka，网络容易成为瓶颈，因为需要通过网络进行大量的数据传输，无论是生产者向Broker发送消息，还是消费者从Broker消费消息，又或者Follower副本从Leader副本同步消息（一般为内网）。

普通的以太网络，带宽主要有两种：1Gbps的千兆网络和10Gbps的万兆网络，特别是千兆网络应该是一般公司网络的标准配置。

关于大数据开发学习，Kafka集群资源规划，以上就为大家做了简单的介绍了。Kafka在实时消息流处理上，近些年来是越来越受到重视的，对于Kafka的学习，也值得花费时间去钻研。

加米谷大数据张老师

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据开发：Kafka集群资源规划

Kafka作为一种高吞吐量的分布式消息发布订阅系统，在Hadoop大数据平台当中，常常被当做消息总线来使用，通过Hadoop的并行加载机制来统一线上和离线的消息处理，与集群联系紧密。今天的大数据开发分享，我们就来讲讲Kafka集群资源规划。一、操作系统Kafka源码既包括Scala也有Java源文件，属于JVM体系的大数据框架。Java是跨平台语言，源码编译后可以运行在不同操作系统对应的JVM上面。而在实际生产中，部署Kafka集群最多的仍然是Linux Server。当然，从目前的市场现状.
复制链接

扫一扫