spark简介

原创 2018年04月15日 15:51:45

spark简介:

spark官网:http://spark.apache.org/ 

1.1 spark是用于大规模数据处理的统一分析引擎,它既有hadoop离线处理,又有storm的实时处理,用scala语言开发比较好玩哦;

1.2 spark特点:

     1.2.1 speed 快 spark基于内存运算要比hadoop的MapReduce快100倍以上,基于硬盘的原酸也要快10倍以上,

                spark实现了高效的DAG(有向无环图)执行引擎,可以通过基于内存来高效的处理数据流;

      1.2.2 简单易用  支持 java scala python R sql 等语言 且支持超过80多种算法

     1.2.3 通用 spark可以用于批处理 ,交互式查询(spark sql)、实时流处理(spark Streaming)、机器学习(spark MLlib)、图计算(Graphx)

       1.2.4 兼容性 spark可以使用 standalong、yarn、mesos作为资源调度器,支持hdfs、hive、hbase等等

1.3 spark安装:

    1.3.1 下载地址  http://spark.apache.org/downloads.html

            安装环境:jdk 1.8 、centos7、hadoop2.64(本示例基于yarn运行)、配置ssh免密登入

            本地服务器:采用VM虚拟机进行测试  测试服务器如下

            hadoop1:192.168.1.18  hadoop2:192.168.1.19  hadoop3:192.168.1.20(etc/hosts 在这里面配置)

            选择版本类型 第一个为:支持2.7版本及以后 第二个:2.6版本 第三个:基于用户提供hadoop版本 第四:源代码 

    

    选择好版本后直接点击第三个:Download Spark 跳转页面选择下面这个即可


 1.3.2 开始安装

    1.3.2.1 上传解压并制定解压目录:

    tar -zxvf spark-1.5.2-bin-hadoop2.6.tgz -C /home/hadoop/app/spark(一般安装在usr路径下,楼主就是这么任性)

    1.3.2.2 进入conf目录:

     重命名并修改 spark-env.sh.template文件 

    mv spark-env.sh.template spark-env.sh 添加配置如下

    export JAVA_HOME=/home/hadoop/app/jdk

    export SPARK_MASTER_IP=hadoop1

    export SPARK_MASTER_PORT=7077

   1.3.2.3 重命名并修改slaves.template文件

    hadoop2 hadoop3 (记得换行)

   1.3.2.4 将spark复制到其他服务(hadoop2,hadoop3)

   scp -r spark/ hadoop2:/home/hadoop/app/ scp -r spark/ hadoop3:/home/hadoop/app/

   1.3.2.5 启动sbin/start-all.sh 

    启动顺序为 hdfs yarn spark

    单节点启动 sh start-slave.sh spark://hadoop1:7077 关闭 sh stop-master.sh spark://hadoop1:7077

    work几点启动关闭  sh start-slave.sh master地址 关闭 sh stop-slave.sh master地址

   1.3.2.6 检测是否安装成功 jps 主节点为master进程 从节点为work进程

    

   1.3.2.7 查看web界面 http://hadoop1:8080 (vm运行windows查看记得windows上配置host文件)

    

   1.3.2.8 简单执行一个已经存在的示例

    ./bin/run-example Sparkpi 输出信息过多找不到结果执行下面的命令可以查看结果

    

1.4 spark-shell

   执行 /bin/shell 

    如果启动spark shell时没有指定master地址,但是也可以正常启动spark shell和执行spark shell中的程序,其实是启动了sparklocal模式,该模式仅在本机启动一个进程,没有与集群建立联系。

   执行  sh spark-shell --master spark://hadoop1:7077 --executor-memory 1g --total-executor-cores 2

      这个实在集群上启动 指定每台服务的运行内存 指定所有机器的总核数 可以在web页面查看

1.4 spark (未完待续)

  1.4.1 spark示例 一般用spark执行离线数据处理

1.5 spark streaming (未完待续)

1.6 spark sql (未完待续)

1.7 机器学习 图形计算(不会哈哈,知道的少不随便讲解了)




    

    



    

  


Spark 简介(三)

一、Spark 是什么及其特点Spark是基于内存计算的大数据并行计算框架,可用于构架大型的、低延迟的数据分析应用程序。Spark具有如下几个主要特点: 运行速度快:使用DAG执行引擎以支持循环数据流...
  • u013850277
  • u013850277
  • 2017-06-23 16:53:28
  • 383

Spark简介与功能

Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。 -...
  • u013063153
  • u013063153
  • 2016-11-10 16:45:05
  • 3774

spark总体概况

1. spark vs hadoopPS:Databricks团队特别说明,为了和Hadoop对比,这次用于排序的Spark集群没有使用它们的内存缓存机制,他们也是用硬盘存储的中间结果! http:...
  • stark_summer
  • stark_summer
  • 2015-05-22 15:18:01
  • 16699

Spark入门实战系列--1.Spark及其生态圈简介

Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处,Spark以其先进的设计理念,迅速成为社区的热门项目,围绕着Spark推出了Spark ...
  • yirenboy
  • yirenboy
  • 2015-08-05 11:18:30
  • 4774

Spark MLlib简介

Spark之所以在机器学习方面具有得天独厚的优势,有以下几点原因: (1)机器学习算法一般都有很多个步骤迭代计算的过程,机器学习的计算需要在多次迭代后获得足够小的误差或者足够收敛才会停止,迭代时如果...
  • yimingsilence
  • yimingsilence
  • 2017-05-25 12:53:24
  • 1939

Spark入门基础--简介及环境搭建

本节内容主要包括Spark简介、Spark集群安装、Spark开发环境搭建、Spark源码阅读环境及Spark应用程序调试。
  • 2016年04月11日 11:08

MongoDB Spark - Mongo首席技術架構師唐建法

  • 2017年11月07日 09:59
  • 2.72MB
  • 下载

Spark MLLib简介

Spark MLLib ML Machine Learning Data Science Steps in a Machine Learning Program Recommandation En...
  • qq_33938256
  • qq_33938256
  • 2016-10-16 21:22:13
  • 871

Spark及其生态圈简介

  • 2017年07月11日 23:12
  • 1.1MB
  • 下载

spark sql介绍

spark sql介绍 Spark 1.0版本开始,推出了Spark SQL。 其实最早使用的,都是Hadoop自己的Hive查询引擎;但是后来Spark提供了Shark;再后来Shark被淘汰,...
  • u010220089
  • u010220089
  • 2015-11-03 22:03:57
  • 1174
收藏助手
不良信息举报
您举报文章:spark简介
举报原因:
原因补充:

(最多只允许输入30个字)