【大数据处理架构】1.spark streaming

1. spark 是什么?

>Apache Spark 是一个类似hadoop的开源快速集群运算环境  与后者不同的是,spark更快(官方的说法是快近100倍)。提供高层JAVA,Scala,PythonI ,R API接口.并且提tools:Spark SQL for SQL 处理结构化数据, MLlib for machine learning, GraphX for graph processing, and Spark Streaming.



2. spark streaming 

Spark Streaming: 构建在Spark上处理Stream数据的框架,基本的原理是将Stream数据分成小的时间片断(几秒),以类似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上,一方面是因为Spark的低延迟执行引擎(100ms+),虽然比不上专门的流式数据处理软件,也可以用于实时计算,另一方面相比基于Record的其它处理框架(如Storm),一部分窄依赖的RDD数据集可以从源数据重新计算达到容错处理目的。



3. build spark: 

    1) 安装 scala 

          scala 语言很简洁,属于函数式语言。其简洁度令人吃惊(代码量只有java的十分之一)值得学习。

         http://www.scala-lang.org/download/

          下载,解压 :tar -zxvf filename  loaction

          修改环境变量:vim /etc/profile  在PATH后加入scala解压后文件位置。

           >  export SCALA_HOME = $/opt/scala/scala-2.11.7

           >  export SPARK_HOME=$opt/spark/spark-1.4.1
           >  export PATH=$SCALA_HOME/bin:$PATH:$SPARK_HOME/bin

                        

           update( very important or you may failed to change the path)  > source /etc/profile

          检测:  scala -version

2)安装 spark streaming

         下载这个版本: spark-1.4.1-bin-hadoop2.6.tgz   (一定不要选source code 需要自己编译)

http://spark.apache.org/downloads.html

          解压: tar -zxvf filemname location  (文件名太长善用 tab键)

3)几个命令 

启动Spark

在Spark运行之前,首先需要让Spark集群启动,如果需要用到hadoop的HDFS的话,也需要把HDFS启动起来。

>cd /docker/opt/spark-1.4.0-bin-hadoop2.6/sbin (注意根据自己的安装目录定)
       ./stop-master.sh
    以及   ./start-master.sh
>cd /docker/opt/spark-1.4.0-bin-hadoop2.6/sbin; 
     ./stop-slave.sh; 
     ./start-slave.sh spark://XXXXX
>bin/spark-shell.sh   启动spark shell
 在SPARK_HOME/sbin目录:

  • sbin/start-master.sh-在机器上执行脚本,启动 master .
  • sbin/start-slaves.sh- 启动conf/slaves中指定的每一个slave .
  • sbin/start-all.sh- 同时启动master 以及 上面所说文件中指定的slave
  • sbin/stop-master.sh- 停止通过bin/start-master.sh脚本启动的master
  • sbin/stop-slaves.sh- 停止通过bin/start-slaves.sh启动的slave .
  • sbin/stop-all.sh- 停止上述的两种启动脚本启动的master和slave
运行:
    想在想在spark上跑自己的代码,需要我们打包成jar ,使用 spark-streaming的命令。但是需要用到sbt的tool,我们下一节再介绍。
参考:1. http://spark.apache.org/docs/latest/index.html
2. http://blog.csdn.net/yunlong34574/article/details/39098815
3.http://www.oschina.net/translate/spark-standalone?cmp

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
【1】项目代码完整且功能都验证ok,确保稳定可靠运行后才上传。欢迎下载使用!在使用过程中,如有问题或建议,请及时私信沟通,帮助解答。 【2】项目主要针对各个计算机相关专业,包括计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网等领域的在校学生、专业教师或企业员工使用。 【3】项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 【4】如果基础还行,或热爱钻研,可基于此项目进行二次开发,DIY其他不同功能,欢迎交流学习。 【注意】 项目下载解压后,项目名字和项目路径不要用中文,否则可能会出现解析不了的错误,建议解压重命名为英文名字后再运行!有问题私信沟通,祝顺利! 基于C语言实现智能决策的人机跳棋对战系统源码+报告+详细说明.zip基于C语言实现智能决策的人机跳棋对战系统源码+报告+详细说明.zip基于C语言实现智能决策的人机跳棋对战系统源码+报告+详细说明.zip基于C语言实现智能决策的人机跳棋对战系统源码+报告+详细说明.zip基于C语言实现智能决策的人机跳棋对战系统源码+报告+详细说明.zip基于C语言实现智能决策的人机跳棋对战系统源码+报告+详细说明.zip基于C语言实现智能决策的人机跳棋对战系统源码+报告+详细说明.zip基于C语言实现智能决策的人机跳棋对战系统源码+报告+详细说明.zip基于C语言实现智能决策的人机跳棋对战系统源码+报告+详细说明.zip基于C语言实现智能决策的人机跳棋对战系统源码+报告+详细说明.zip基于C语言实现智能决策的人机跳棋对战系统源码+报告+详细说明.zip基于C语言实现智能决策的人机跳棋对战系统源码+报告+详细说明.zip基于C语言实现智能决策的人机跳棋对战系统源码+报告+详细说明.zip
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值