【头歌】Spark的安装与使用 答案

本专栏已收集头歌大数据所有答案 以供参考

第1关:Scala语言开发环境的部署
 

以下是解题步骤

题目中已经说明在平台已经将spark安装包下载到/opt目录下了,所以不需要再下载了。

  • 1.所以要先将目录跳转到/opt目录中:
cd /opt
  • 2.接下来,解压到/app目录下:
mkdir /app    //创建 app 目录
tar -zxvf  scala-2.12.7.tgz -C /app

配置环境
接下来我们开始配置环境,在自己本机上需要配置好Java环境,因为Scala是基于jvm的(在平台已经将Java环境配置好了):

vi /etc/profile

#set scala
SCALA_HOME=/app/scala-2.12.7
export PATH=$PATH:$SCALA_HOME/bin

不要忘了配置好之后source /etc/profile

校验
在命令行输入:scala -version出现如下结果就配置成功了


按照惯例,我们在开始一个编程语言要进行一个仪式,哈哈,那就是,Hello World,接下来我们使用Scala输出Hello World:

在命令行中输入scala进入Scala命令行,输入println("Hello World") 就可以啦。

第2关:安装与配置Spark开发环境

解答步骤

题目中已经说明在平台已经将spark安装包下载到/opt目录下了,所以不需要再下载了。

  • 1.所以要先将目录跳转到/opt目录中:
cd /opt
  • 2.然后按照步骤解压
tar -zxvf spark-2.2.2-bin-hadoop2.7.tgz -C /app

  • 3.配置环境变量
vim /etc/profile

  • 将以下代码加入到编辑文件末尾
#set spark enviroment
SPARK_HOME=/app/spark-2.2.2-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin

  • 保存后使用以下代码更新环境变量
source /etc/profile

  • 修改Spark配置文件
  • 切换到conf目录下:
cd /app/spark-2.2.2-bin-hadoop2.7/conf

  • 在这里我们需要配置的是spark-env.sh文件,但是查看目录下文件只发现一个spark-env.sh.template文件,我们使用命令复制该文件并重命名为spark-env.sh即可;

  • 接下来编辑spark-env.sh,在文件末尾添加如下配置:
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_111
export SCALA_HOME=/app/scala-2.12.7
export HADOOP_HOME=/usr/local/hadoop/
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export SPARK_MASTER_IP=machine_name   # machine_name 根据自己的主机确定
export SPARK_LOCAL_IP=machine_name    # machine_name 根据自己的主机确定

在命令行输入hostname查询自己的主机名

我这里的主机名是educoder

所以将

export SPARK_MASTER_IP=machine_name   # machine_name 根据自己的主机确定
export SPARK_LOCAL_IP=machine_name    # machine_name 根据自己的主机确定


修改为

export SPARK_MASTER_IP=educoder   # educoder 根据自己的主机确定
export SPARK_LOCAL_IP=educoder    # educoder 根据自己的主机确定

校验
最后我们需要校验是否安装配置成功了;
现在我们启动spark并且运行spark自带的demo:

首先我们在spark根目录下启动spark:
在spark的根目录下输入命令./sbin/start-all.sh即可启动,使用jps命令查看是否启动成功,有woker和master节点代表启动成功。

接下来运行demo:

在Spark根目录使用命令./bin/run-example SparkPi > SparkOutput.txt运行示例程序
在运行的时候我们可以发现打印了很多日志,最后我们使用cat SparkOutput.txt可以查看计算结果(计算是有误差的所以每次结果会不一样):

  • 7
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Spark是一个开源的分布式计算框架,可以用于大规模数据处理、机器学习、图形计算等各种任务。下面是Spark安装使用方法: 1. 下载Spark 访问Spark的官网,选择合适的版本并下载。建议选择最新的稳定版本。 2. 安装Java和Scala 首先需要安装Java和Scala,Spark是基于这两个语言开发的。建议安装Java 8和Scala 2.11。 3. 配置环境变量 在系统环境变量中添加Java和Scala的安装路径,以及Spark安装路径。 4. 启动Spark 打开终端,进入Spark安装目录,输入以下命令启动Spark: ``` ./bin/spark-shell ``` 这样就可以启动Spark的交互式Shell环境了。 5. 运行Spark程序 可以使用Scala或Python编写Spark程序。以Scala为例,创建一个名为WordCount的程序: ``` import org.apache.spark._ import org.apache.spark.SparkContext._ import org.apache.log4j._ object WordCount { def main(args: Array[String]) { Logger.getLogger("org").setLevel(Level.ERROR) val sc = new SparkContext("local[*]", "WordCount") val input = sc.textFile("input.txt") val words = input.flatMap(x => x.split(" ")) val wordCounts = words.countByValue() wordCounts.foreach(println) } } ``` 在程序所在的目录下创建一个名为input.txt的文本文件,内容为一些单词,如: ``` hello world hello spark spark is awesome ``` 然后在终端中使用以下命令来运行程序: ``` spark-submit --class WordCount WordCount.jar ``` 其中,WordCount.jar是编译好的程序包。程序会读取input.txt文件中的单词,统计每个单词出现的次数并输出。 以上就是Spark安装使用方法。在实际应用中,可以根据需求选择合适的Spark组件和算法来完成各种任务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值