关闭

spark环境搭建及简单程序使用

标签: spark
1123人阅读 评论(0) 收藏 举报
分类:

该文章是在hadoop环境搭建好的基础上进行的,主要是针对搭建过程中自己遇到的一些小问题。关于hadoop的搭建详见:http://blog.csdn.net/svmachine/article/details/51334188

一 环境
hadoop:hadoop2.6.0
spark:spark1.6.1
scala:scala2.11.8
jar:spark-assembly-1.6.1-hadoop2.6.0.jar

二 下载spark与scala并解压

 tar -zxvf spark-1.6.1.zip -C /home/wh(spark的路径)
 tar -zxvf scala-2.11.8.tgz -C /home/wh(scala的路径)
  • 重命名
mv spak-1.6.1 spark
mv scala-2.11.8 scala

三 配置环境变量

  • scala环境
vim /etc/profile

export SCALA_HOME=/home/wh/scala
export PATH=$PATH:$SCALA_HOME/bin
  • spark环境
vim /etc/profile

export SPARK_HOME=/home/wh/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
  • 在spark/conf/spark-env.sh文件中配置hadoop、scala、java、jar
export SCALA_HOME=/home/wh/scala
export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64
export HADOOP_HOME=/home/wh/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_JAR=/home/wh/spark/lib/spark-assembly-1.6.0-hadoop2.6.0.jar
  • 添加slave节点
vim spark/conf/slaves

node1
node2
  • 将spark、scala拷贝到从节点中
tar -zcf ~/spark.master.tar.gz ./spark
tar -zcf ~/scala.master.tar.gz ./scala
scp ./spark.master.tar.gz node1:/home/wh
scp ./scala.master.tar.gz node1:/home/wh
  • 从节点中解压(node1,node2)
tar -zxf ~/spark.master.tar.gz -C /home/wh
tar -zxf ~/scala.master.tar.gz -C /home/wh

四 启动spark,访问UI

  • 启动
cd spark
bin/start-master.sh
bin/start-slaves.sh

五 运行简单的spark程序(包含从hdfs中读取文件和从本地读取文件)

  • 从本地读取文件
    程序:
from pyspark import SparkContext, SparkConf
conf = SparkConf().setAppName(appName).setMaster(master)
sc = SparkContext(conf=conf)
logFile = "file:///home/wh/spark/README.md"  # Should be some file on your system
logData = sc.textFile(logFile).cache()

numAs = logData.filter(lambda s: 'a' in s).count()
numBs = logData.filter(lambda s: 'b' in s).count()

print("Lines with a: %i, lines with b: %i" % (numAs, numBs))

         注:appName是运程程序的名称,便于在UI上查看;master为Spark, Mesos 或 YARN 集群 URL;file:///home/wh/spark/README.md表示的是本地文件,不指定默认为hdfs中读取。

         执行结果如图:

这里写图片描述

这里写图片描述

这里写图片描述


  • 从hdfs中读取文件并将结果保存至dfs中
    程序:
from pyspark import SparkContext, SparkConf
conf = SparkConf().setAppName("Python Word").setMaster("spark://192.168.16.131:7077")
sc = SparkContext(conf=conf)
text_file = sc.textFile("hdfs:///user/wh/input/file.txt")
counts = text_file.flatMap(lambda line: line.split(" ")) \
             .map(lambda word: (word, 1)) \
             .reduceByKey(lambda a, b: a + b)
counts.saveAsTextFile("hdfs:///user/wh/output")

       注:hdfs的文件可以通过bin/hadoop fs -ls -R查看,hdfs:///user/wh/input/file.txt中的user/wh是指hadoop中在hdfs中创建的用户,file.txt是导入的文件。hdfs的路径一定不能写错,有时候可能会有输出目录存在,此时可以通过bin/hdfs dfs -rm -r output删除即可。

        执行结果如图(使用bin/hdfs dfs -cat output/*查看):

这里写图片描述

这里写图片描述

0
0
查看评论
发表评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场

Spark+Hadoop环境搭建

一、工具下载: 1、spark下载 目前最新的是2.1.1,spark 2.0开始api和之前的还是有比较多的变化,因此如果选择2.0以上版本,最好看一下api变化,下载地址:http://spark...
  • u012292247
  • u012292247
  • 2017-06-17 11:51
  • 756

使用Eclipse IDE搭建Apache Spark的Java开发环境

本文介绍如何使用Eclipse IDE搭建Apache Spark的Java开发环境。
  • farawayzheng_necas
  • farawayzheng_necas
  • 2017-01-16 15:08
  • 1533

Spark(八) -- 使用Intellij Idea搭建Spark开发环境

Intellij Idea下载地址: 官方下载 选择右下角的Community Edition版本下载安装即可本文中使用的是windows系统 环境为: jdk1.6.0_45 scala2...
  • qq1010885678
  • qq1010885678
  • 2015-05-24 20:07
  • 9897

Intellij搭建spark开发环境

spark怎么学习呢?在一无所知的前提下,首先去官网快速了解一下spark是干什么的,官网在此。然后,安装开发环境,从wordcount开始学习。第三,上手以后可以学习其他算法了。最后,不要放弃,继续...
  • pirage
  • pirage
  • 2015-12-08 11:18
  • 16719

Spark 环境搭建 (hadoop之上)

1、前提是Hadoop环境已经搭建完成,ssh当然也已经配置完成,官网下载软件包: scala-2.11.0.tgz spark-2.1.0-bin-hadoop2.6.tgz 使用了两台虚...
  • beishafengjiang
  • beishafengjiang
  • 2017-02-14 15:40
  • 1231

spark本地java开发环境的搭建

基于Java开发Spark HelloWorld 绪论          对于学习任何一门新的开发语言或者新的技术,常常都是从HelloWorld开发写起,文章主要介绍在本地环境下如何构建Spar...
  • liujianhuiouc
  • liujianhuiouc
  • 2015-12-11 15:18
  • 1412

windows本地sparkstreaming开发环境搭建及简单实例

windows本地spark开发环境搭建及简单实例   1:开发环境IDEA选择: IntelliJ IDEA Community Edition 2017.1.1  (相比eclipse更方便...
  • u012551524
  • u012551524
  • 2017-05-28 23:00
  • 848

Spark:利用Eclipse构建Spark集成开发环境

前一篇文章“Apache Spark学习:将Spark部署到Hadoop 2.2.0上”介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包,而本文则在此基础上...
  • cq1982
  • cq1982
  • 2015-05-21 10:33
  • 1504

利用Eclipse构建Spark集成开发环境(包括scala环境的搭建)

(1) 准备工作 在正式介绍之前,先要以下软硬件准备: 软件准备: Eclipse Juno版本(4.2版本),可以直接点击这里下载:Eclipse 4.2 Scala 2...
  • w1104014017
  • w1104014017
  • 2014-09-26 11:27
  • 3265

Spark 分布式集群环境搭建

目录 一、前置知识:...........................................................................................
  • ttomchy
  • ttomchy
  • 2016-08-24 23:12
  • 1252
    个人资料
    • 访问:59795次
    • 积分:955
    • 等级:
    • 排名:千里之外
    • 原创:39篇
    • 转载:2篇
    • 译文:0篇
    • 评论:8条
    最新评论