spark平台搭建

  • Spark是用Scala程序设计语言编写而成,运行于Java虚拟机(JVM)环境之上。目前支持如下程序设计语言编写Spark应用:
Scala
Java
Python
Clojure
R

前提条件:

  • 为了让Spark能够在本机正常工作,你需要安装Java开发工具包(JDK)。windows与ubuntu自行下载对应的安装包安装,安装目录不要带空格。
  • 同样还需要在电脑上安装Spark软件.
    Spark网站下载最新版本的Spark。
    将安装文件解压到本地文件夹中(如:c:\dev,ubuntu也同样解压)。为了验证Spark安装的正确性,切换至Spark文件夹然后用如下命令启动Spark Shell。这是Windows环境下的命令。
c:
cd c:\dev\spark-1.2.0-bin-hadoop2.4
bin\spark-shell

如果使用Linux或Mac OS,请相应地编辑命令以便能够在相应的平台上正确运行。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大数据分析处理平台是整合当前主流的各种具有不同侧重点的大数据处理分析框架和工具,实现对数据的挖掘和分析。在搭建Spark分析平台之前,需要明确业务需求场景以及用户的需求,通过大数据分析平台,想要得到哪些有价值的信息,需要接入的数据有哪些,明确基于场景业务需求的大数据平台要具备的基本的功能,来决定平台搭建过程中使用的大数据处理工具和框架。具体步骤如下: 1. 选择操作系统,可以在个人电脑上安装两台及以上数量的虚拟机作为底层构建平台。 2. 搭建Hadoop集群,Hadoop作为一个开发和运行处理大规模数据的软件平台,实现了在大量的廉价计算机组成的集群红对海量数据进行分布式计算。 3. 安装和配置SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用分布式并行计算框架,提供了多种高级工具:Shark SQL应用于即席查询(Ad-hoc query)、Spark Streaming应用于流式计算、MLlib应用于机器学习、GraphX应用于图处理。 4. 部署SparkSpark可以基于自带的standalone集群管理器独立运行,也可以部署在Apache Mesos和Hadoop YARN等集群管理器上运行。 5. 访问数据,Spark可以访问存储在HDFS、Hbase、Cassandra、Amazon S3、本地文件系统等等上的数据,支持文本文件,序列文件,以及任何Hadoop的InputFormat。 6. 进行实验分析,使用Spark提供的多种高级工具进行数据分析和挖掘。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值