CentOS 7 Spark开发单机环境搭建

最新推荐文章于 2023-05-09 11:12:15 发布

Rainpacker

最新推荐文章于 2023-05-09 11:12:15 发布

阅读量555

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/t_T_c/article/details/96688248

版权

本文详细记录了在Linux CentOS7环境下，如何搭建Hadoop伪分布式、Yarn、Hive以及Spark本地环境，用于本地虚拟机测试和学习。文中强调了JDK、SSH配置、Hadoop的HDFS和Yarn的启动与管理，以及Hive与MySQL的连接，并提到了Spark local环境的搭建，整个过程旨在为大数据开发提供一个实践平台。

摘要由CSDN通过智能技术生成

本文主要记录大数据开发中Linux CentOS7环境下apache的bin版本（源码编译参见https://blog.csdn.net/t_T_c/article/details/98093324）的Hadoop pseudo-distributed、Yarn、Hive、Spark local环境的搭建，该环境主要用户本地虚拟机测试/练手

> 强烈建议配合官方文档食用，师傅领进门，修行靠个人。要学会“听学”，也要学会“看学”——和官方文档“做朋友”

用户目录结构如下：

~/software：所有软件包（apache-maven、hive、scala、jdk、zeppelin、hadoop、mysql-connector-java的jar/tar.gz/tgz）
~/app：所有安装路径、hadoop的tmp目录（不设置这个目录可能会有tmp目录写入权限问题导致hive无法正常启动）
~/data：测试数据
~/source：软件源码（spark）

一、Hadoop pseudo-distributed

前置配置

（一）、相应的JDK版本

> 注意先卸载自带的openJDK，可以通过rpm -qa配合grep查询

> 注意在~/.bash_profile中export $JAVA_HOME，并且将$JAVA_HOME/bin添加入$PATH。用java -version检验

（二）、ssh服务

> 注意需要启动sshd

基本步骤

（一）、前往官网复制bin压缩文件链接，wget之，后解压之

（二）、配置Hadoop解压后文件目录etc/hadoop/下的三个文件：hadoop-env.sh、core-site.xml、hdfs-site.xml

> hadoop-env.sh：依官网，具体化其中的$JAVA_HOME。

检验：运行bin/hadoop

> core-site.xml：依官网，配置fs.defaultFS属性；（该属性表示hdfs开放的服务端口）

依视频，配置hadoop.tmp.dir属性（该属性指定hadoop的tmp目录）

注意：tmp目录会存放hdfs的DFS（Distributed File System）、格式化DN和NN的数据，但是系统的tmp目录在reboot后会清空，可能导致hadoop异常。同时由于权限问题，用系统默认tmp目录可能导致hadoop上的hive跑不起来，如报错Cannot create directory /tmp/hive/hadoop/c1107d68-9120-490c-ba19-cb97af8ea63c）

> hdfs-site.xml：依官网，配置dfs.replication属性，设为1。（该属性表示副本