CentOS 7 Spark开发单机环境搭建

本文详细记录了在Linux CentOS7环境下,如何搭建Hadoop伪分布式、Yarn、Hive以及Spark本地环境,用于本地虚拟机测试和学习。文中强调了JDK、SSH配置、Hadoop的HDFS和Yarn的启动与管理,以及Hive与MySQL的连接,并提到了Spark local环境的搭建,整个过程旨在为大数据开发提供一个实践平台。
摘要由CSDN通过智能技术生成

本文主要记录大数据开发中Linux CentOS7环境下apache的bin版本(源码编译参见https://blog.csdn.net/t_T_c/article/details/98093324)的Hadoop pseudo-distributed、Yarn、Hive、Spark local环境的搭建,该环境主要用户本地虚拟机测试/练手

> 强烈建议配合官方文档食用,师傅领进门,修行靠个人。要学会“听学”,也要学会“看学”——和官方文档“做朋友”

 

用户目录结构如下:

~/software:所有软件包(apache-maven、hive、scala、jdk、zeppelin、hadoop、mysql-connector-java的jar/tar.gz/tgz)
~/app:所有安装路径、hadoop的tmp目录(不设置这个目录可能会有tmp目录写入权限问题导致hive无法正常启动)
~/data:测试数据
~/source:软件源码(spark)

 

目录

一、Hadoop pseudo-distributed

二、Yarn

三、Hive及其与MySQL连接

四、Spark local环境的搭建

五、小结


 

一、Hadoop pseudo-distributed

 

前置配置

(一)、相应的JDK版本

> 注意先卸载自带的openJDK,可以通过rpm -qa配合grep查询

> 注意在~/.bash_profile中export $JAVA_HOME,并且将$JAVA_HOME/bin添加入$PATH。用java -version检验

(二)、ssh服务

> 注意需要启动sshd

 

基本步骤

(一)、前往官网复制bin压缩文件链接,wget之,后解压之

(二)、配置Hadoop解压后文件目录etc/hadoop/下的三个文件:hadoop-env.sh、core-site.xml、hdfs-site.xml

> hadoop-env.sh:依官网,具体化其中的$JAVA_HOME。

                              检验:运行bin/hadoop

> core-site.xml:依官网,配置fs.defaultFS属性;(该属性表示hdfs开放的服务端口)

                           依视频,配置hadoop.tmp.dir属性(该属性指定hadoop的tmp目录)

                           注意:tmp目录会存放hdfs的DFS(Distributed File System)、格式化DN和NN的数据,但是系统的tmp目录在reboot后会清空,可能导致hadoop异常。同时由于权限问题,用系统默认tmp目录可能导致hadoop上的hive跑不起来,如报错Cannot create directory /tmp/hive/hadoop/c1107d68-9120-490c-ba19-cb97af8ea63c)

> hdfs-site.xml:依官网,配置dfs.replication属性,设为1。(该属性表示副本

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值