本文主要记录大数据开发中Linux CentOS7环境下apache的bin版本(源码编译参见https://blog.csdn.net/t_T_c/article/details/98093324)的Hadoop pseudo-distributed、Yarn、Hive、Spark local环境的搭建,该环境主要用户本地虚拟机测试/练手
> 强烈建议配合官方文档食用,师傅领进门,修行靠个人。要学会“听学”,也要学会“看学”——和官方文档“做朋友”
用户目录结构如下:
~/software:所有软件包(apache-maven、hive、scala、jdk、zeppelin、hadoop、mysql-connector-java的jar/tar.gz/tgz)
~/app:所有安装路径、hadoop的tmp目录(不设置这个目录可能会有tmp目录写入权限问题导致hive无法正常启动)
~/data:测试数据
~/source:软件源码(spark)
目录
一、Hadoop pseudo-distributed
前置配置
(一)、相应的JDK版本
> 注意先卸载自带的openJDK,可以通过rpm -qa配合grep查询
> 注意在~/.bash_profile中export $JAVA_HOME,并且将$JAVA_HOME/bin添加入$PATH。用java -version检验
(二)、ssh服务
> 注意需要启动sshd
基本步骤
(一)、前往官网复制bin压缩文件链接,wget之,后解压之
(二)、配置Hadoop解压后文件目录etc/hadoop/下的三个文件:hadoop-env.sh、core-site.xml、hdfs-site.xml
> hadoop-env.sh:依官网,具体化其中的$JAVA_HOME。
检验:运行bin/hadoop
> core-site.xml:依官网,配置fs.defaultFS属性;(该属性表示hdfs开放的服务端口)
依视频,配置hadoop.tmp.dir属性(该属性指定hadoop的tmp目录)
注意:tmp目录会存放hdfs的DFS(Distributed File System)、格式化DN和NN的数据,但是系统的tmp目录在reboot后会清空,可能导致hadoop异常。同时由于权限问题,用系统默认tmp目录可能导致hadoop上的hive跑不起来,如报错Cannot create directory /tmp/hive/hadoop/c1107d68-9120-490c-ba19-cb97af8ea63c)
> hdfs-site.xml:依官网,配置dfs.replication属性,设为1。(该属性表示副本