spark简介

spark简介:

spark官网:http://spark.apache.org/ 

1.1 spark是用于大规模数据处理的统一分析引擎,它既有hadoop离线处理,又有storm的实时处理,用scala语言开发比较好玩哦;

1.2 spark特点:

     1.2.1 speed 快 spark基于内存运算要比hadoop的MapReduce快100倍以上,基于硬盘的原酸也要快10倍以上,

                spark实现了高效的DAG(有向无环图)执行引擎,可以通过基于内存来高效的处理数据流;

      1.2.2 简单易用  支持 java scala python R sql 等语言 且支持超过80多种算法

     1.2.3 通用 spark可以用于批处理 ,交互式查询(spark sql)、实时流处理(spark Streaming)、机器学习(spark MLlib)、图计算(Graphx)

       1.2.4 兼容性 spark可以使用 standalong、yarn、mesos作为资源调度器,支持hdfs、hive、hbase等等

1.3 spark安装:

    1.3.1 下载地址  http://spark.apache.org/downloads.html

            安装环境:jdk 1.8 、centos7、hadoop2.64(本示例基于yarn运行)、配置ssh免密登入

            本地服务器:采用VM虚拟机进行测试  测试服务器如下

            hadoop1:192.168.1.18  hadoop2:192.168.1.19  hadoop3:192.168.1.20(etc/hosts 在这里面配置)

            选择版本类型 第一个为:支持2.7版本及以后 第二个:2.6版本 第三个:基于用户提供hadoop版本 第四:源代码 

    

    选择好版本后直接点击第三个:Download Spark 跳转页面选择下面这个即可


 1.3.2 开始安装

    1.3.2.1 上传解压并制定解压目录:

    tar -zxvf spark-1.5.2-bin-hadoop2.6.tgz -C /home/hadoop/app/spark(一般安装在usr路径下,楼主就是这么任性)

    1.3.2.2 进入conf目录:

     重命名并修改 spark-env.sh.template文件 

    mv spark-env.sh.template spark-env.sh 添加配置如下

    export JAVA_HOME=/home/hadoop/app/jdk

    export SPARK_MASTER_IP=hadoop1

    export SPARK_MASTER_PORT=7077

   1.3.2.3 重命名并修改slaves.template文件

    hadoop2 hadoop3 (记得换行)

   1.3.2.4 将spark复制到其他服务(hadoop2,hadoop3)

   scp -r spark/ hadoop2:/home/hadoop/app/ scp -r spark/ hadoop3:/home/hadoop/app/

   1.3.2.5 启动sbin/start-all.sh 

    启动顺序为 hdfs yarn spark

    单节点启动 sh start-slave.sh spark://hadoop1:7077 关闭 sh stop-master.sh spark://hadoop1:7077

    work几点启动关闭  sh start-slave.sh master地址 关闭 sh stop-slave.sh master地址

   1.3.2.6 检测是否安装成功 jps 主节点为master进程 从节点为work进程

    

   1.3.2.7 查看web界面 http://hadoop1:8080 (vm运行windows查看记得windows上配置host文件)

    

   1.3.2.8 简单执行一个已经存在的示例

    ./bin/run-example Sparkpi 输出信息过多找不到结果执行下面的命令可以查看结果

    

1.4 spark-shell

   执行 /bin/shell 

    如果启动spark shell时没有指定master地址,但是也可以正常启动spark shell和执行spark shell中的程序,其实是启动了sparklocal模式,该模式仅在本机启动一个进程,没有与集群建立联系。

   执行  sh spark-shell --master spark://hadoop1:7077 --executor-memory 1g --total-executor-cores 2

      这个实在集群上启动 指定每台服务的运行内存 指定所有机器的总核数 可以在web页面查看

1.4 spark (未完待续)

  1.4.1 spark示例 一般用spark执行离线数据处理

1.5 spark streaming (未完待续)

1.6 spark sql (未完待续)

1.7 机器学习 图形计算(不会哈哈,知道的少不随便讲解了)




    

    



    

  


阅读更多
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页