Spark内存迭代计算初探

sawen21

于 2015-04-22 16:48:04 发布

阅读量1.9k

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/sawen21/article/details/45197183

版权

本文介绍了如何搭建Spark集群，并通过实例展示了Spark的基本用法，包括运行测试示例和使用Spark Shell进行HDFS文件的字符计数操作。同时，文章提到了遇到的问题及解决方法，适合Spark初学者参考。

摘要由CSDN通过智能技术生成

本文转自个人原创blog: http://www.javali.org/document/dive-into-spark-rdd.html

首先安装Spark集群

前置条件，10.0.18.14-16 三台机器分别已安装好hadoop2，spark cluster机器规划 10.0.18.16为master ,10.0.18.14-16三个结点为slave,确保master到slave能免密码ssh畅通
下载scala: http://www.scala-lang.org/download/
下载spark: http://d3kbcqa49mib13.cloudfront.net/spark-1.1.0-bin-cdh4.tgz

解压到master /home/work/hadoop/目录下

 
         1 
       
         2 
       
         3 
       
        vi 
          
        ~ 
        / 
        . 
        bashrc  
       
        export  
        SCALA_HOME 
        = 
        / 
        home 
        / 
        work 
        / 
        hadoop 
        / 
        scala 
       
        export  
        SPARK_HOME 
        = 
        / 
        home 
        / 
        work 
        / 
        hadoop 
        / 
        spark

 
         1 
       
         2 
       
         3 
       
         4 
       
         5 
       
         6 
       
         7 
       
         8 
       
        vi 
          
        $ 
        SPARK_HOME 
        / 
        conf 
        / 
        spark 
        - 
        env 
        . 
        sh 
       
        export  
        SCALA_HOME 
        = 
        / 
        home 
        / 
        work 
        / 
        hadoop 
        / 
        scala 
       
        export  
        SPARK_SSH_OPTS 
        = 
        "-p22222"