引言:
分布式课程要求使用IDE(IDEA、Eclipse)来编写程序直接对Hadoop集群进行文件操作,目前关于IDEA连接Hadoop集群的教程,良莠不齐,根据多个教程完成了IDEA连接Hadoop集群。现在将完整的流程陈列如下。
如果觉得文章组织形式不好,或者有看不懂的地方请给我留言。
环境:
windows10 (IDEA 2021.1.3)
VMware 16 workstation pro(安装可以搜教程,比较容易)
Linux Server(Hadoop-2.7.7集群 1 master 3 slaves)
集群搭建可以看Hadoop集群搭建(超级详细)_阮哈哈哈哈哈的博客-CSDN博客
idea连接Hadoop集群可以看idea连接本地虚拟机Hadoop集群运行wordcount - 徐春晖 - 博客园 (cnblogs.com)")
前提:
1.通过虚拟机完成了完全分布式Hadoop集群的搭建,在master节点中使用start-all.sh启动Hadoop集群,并使用jps得到下面的输出,表示Hadoop集群搭建成功。
当然也可以通过Hadoop提供的web界面查看,一般来说我们在浏览器中输入http://192.168.xx.101:50070访问。(注意:有的时候我们确实能够跳转到该界面,但是我们还需要查看datanode是否正常运行,因为存在这样的情况,datanode配置失败,但是Hadoop集群也能成功启动,但是后面的文件操作是无法正常运行的)
点击Datanodes出现上面的界面表示配置好了Hadoop集群。
2.安装好了IDEA开发工具
实现:
在window上配置好Hadoop
1.下载hadoop-2.7.7.tar.gz文件到window。各版本Hadoop,我选择的是2.7.7
Hadoop是跨平台的,不用担心Linux与windows不兼容,但是需要注意的是在hadoop-2.7.7/etc/hadoop/hadoop-env.sh中JAVA_HOME需要修改为window下jdk的路径。
2. 选择一个空目录将hadoop-2.7.7.tar.gz解压
3. 将hadoop-2.7.7添加到环境变量中
变量名:HADOOP_HOME
变量值:E:\xx\xx\xx\