此文章主要讲述集群内操作的缺点以及如何配置集群的客户端。
不建议集群内操作:
如果每一次上传文件都是选择某一台DN作为客户端,就会导致这个节点上的磁盘以及网络IO负载超过其他的节点,久而久之这个节点的磁盘以及网卡性能远远低于其他节点,从而导致数据的倾斜问题。
一般要进行集群外操作,配置集群的客户端。
配置集群客户端的步骤:
1、新建一台虚拟机,修改虚拟机的hosts文件(修改内容参考上一篇高可用集群搭建),这台虚拟机必须能够与集群通信(与其余节点ping通);
2、将配置好的安装包(jdk以及hadoop)原封不动的拷贝到新的服务器;
3、配置环境变量(配置方式参考上一篇博客)方便操作HDFS集群
4、在客户端正常操作HDFS集群就可以了