其实咱们经常写代码,不咋用到这两个东西,只是会在配置信息写一下。
yarn 与 zookeeper的区别是啥
两者都是集群节点管理的软件,侧重点不同。
yarn更多的是集群的资源分配管理,集群的所有机器还有多少内存啊,存储啊,cpu啊等,通过yarn去协调各个应用程序的计算资源,保证服务器不因为资源的问题在某个时间点挂了,从而保证程序的稳定运行。
zookeeper更多的是集群数据的一致性,保证大家从集群看到的信息都是一样的,主要做一些配置管理,分布式锁啊等。
yarn
大数据是离不开yarn的,除了hadoop这些封装好的东东需要它,我们的开发也是需要它的,比如我们通过开源的datax,或者flume同步数据,多个任务同时跑,是不是会爆内存,从而报错。提交到yarn,以队列的方式去执行。
zookeeper
写过kafka的朋友们肯定知道,连接kafka是必须要配置zookeeper的连接信息的,它通过管理用户消费数据的偏移量,来确保信息尽可能不丢失。它的底层必须保证偏移量在哪台机器上看到的都是一致的。