spark
墨卿风竹
这个作者很懒,什么都没留下…
展开
-
为什么选择spark
原因随着互联网规模的爆发式增长,不断增加的数据量要求应用程序能够延伸到更大的集群中去计算。与单台机器计算不同,集群计算引发了几个关键问题,如集群计算资源的共享单点宕机(单点死机的意思)节点执行缓慢程序的并行化。针对这几个集群环境的问题,许多大数据处理框架应运而生。比如Google的MapReduce,它提出了简单、通用并具有自动容错功能的批处理计算模型。但是MapReduce对于某些...原创 2019-01-05 18:49:18 · 299 阅读 · 0 评论 -
使用Spark Shell开发运行Spark程序
使用Spark Shell开发运行Spark程序Spark Shell是一种学习API的简单途径,也是分析数据集交互的有力工具。虽然本章还没涉及Spark的具体技术细节,但从总体上说,Spark弹性数据集RDD有两种创建方式:❑ 从文件系统输入(如HDFS)。❑ 从已存在的RDD转换得到新的RDD。现在我们从RDD入手,利用Spark Shell简单演示如何书写并运行Spark程序。...原创 2019-01-13 12:13:23 · 915 阅读 · 0 评论 -
Eclipse IDE的安装与配置
Eclipse IDE的安装与配置现在介绍如何安装Eclipse。与Intellij IDEA类似,Eclipse环境依赖于JDK与Scala的安装。JDK与Scala的安装前文已经详细讲述过了,在此不再赘述。对最初需要为Ecplise选择版本号完全对应的Scala插件才可以新建Scala项目。不过自从有了Scala IDE工具,问题大大简化了。因为Scala IDE中集成的Eclips...原创 2019-01-13 12:09:27 · 8036 阅读 · 0 评论 -
Intellij IDEA的配置
Intellij的配置1)在Intellij IDEA中新建Scala项目,命名为“HelloScala”,如图1-9所示。图1-9 在Intellij IDEA中新建Scala项目2)选择菜单“File”→“Project Structure”→“Libraries”,单击“+”号,选择“java”,定位至前面Spark根目录下的lib目录,选中spark-assembly-1.5.0...原创 2019-01-13 12:07:03 · 183 阅读 · 0 评论 -
Spark集群试运行
Spark集群试运行下面试运行Spark。1)在Master主机上,分别启动Hadoop与Spark。cd /usr/local/hadoop/sbin/./start-all.shcd /usr/local/spark/sbin./start-all.sh**2)检查Master与Worker进程是否在各自节点上启动。在Master主机上,执行命令jps,**如图1-5所示。图1-...原创 2019-01-13 12:00:15 · 386 阅读 · 0 评论 -
Hadoop与Spark的集群复制
Hadoop与Spark的集群复制前面完成了Master主机上Hadoop与Spark的搭建,现在我们将该环境及部分配置文件从Master分发到各个Worker节点上(以笔者环境为例)。在集群环境中,由一台主机向多台主机间的文件传输一般使用pssh工具来完成。为此,在Master上建立一个文件workerlist.txt,其中保存了所有Worker节点的IP,每次文件的分发只需要一行命令即可...原创 2019-01-13 11:51:16 · 194 阅读 · 0 评论 -
Spark安装部署
Spark安装部署登录Spark官网下载页面(http://spark.apache.org/downloads.html)下载Spark。这里选择最新的Spark 1.5.0版spark-1.5.0-bin-hadoop2.6.tgz(Pre-built for Hadoop2.6 and later)。然后解压spark安装包至本地指定目录:tar zxvf spark-1.5.0-b...原创 2019-01-13 11:45:14 · 403 阅读 · 0 评论 -
Hadoop的安装配置
Hadoop的安装配置登录Hadoop官网(http://hadoop.apache.org/releases.html)下载Hadoop 2.6.0安装包hadoop-2.6.0.tar.gz。然后解压至本地指定目录。tar zxvf hadoop-2.6.0.tar.gz -C /usr/localln -s hadoop-2.6.0 hadoop下面讲解Hadoop的配置。1)打...原创 2019-01-06 14:17:22 · 197 阅读 · 0 评论 -
在Linux集群上部署Spark之前准备
在Linux集群上部署SparkSpark安装部署比较简单,用户可以登录其官方网站(http://spark.apache.org/downloads.html)下载Spark最新版本或历史版本,也可以查阅Spark相关文档作为参考。本书开始写作时,本章所述的环境搭建均以Spark 1.5.0版为例。Spark使用了Hadoop的HDFS作为持久化存储层,因此安装Spark时,应先安装与S...原创 2019-01-06 13:54:13 · 468 阅读 · 0 评论 -
Spark的架构
传统的单机系统,虽然可以多核共享内存、磁盘等资源,但是当计算机与存储能力无法满足大规模数据处理的需要时,面对自身CPU和存储无法扩展的先天条件,单机系统就力不从心了。1.分布式系统的架构所谓的分布式系统,即为在网络互连的多个计算单元执行任务的软硬件系统,一般包括分布式操作系统、分布式数据库系统、分布式应用程序等。Spark分布式系统框架可以看做分布式软件系统的组成部分,基于Spark,开发者可...原创 2019-01-06 10:50:09 · 808 阅读 · 0 评论 -
spark生态及各个功能
Spark大数据计算平台包含许多子模块,构成了整个Spark的生态系统,其中Spark为核心。伯克利将整个Spark的生态系统称为伯克利数据分析栈(BDAS),其结构如图1-1所示。图1-1 伯克利数据分析栈的结构以下简要介绍BDAS的各个组成部分。1. Spark CoreSpark Core是整个BDAS的核心组件,是一种大数据分布式处理框架,不仅实现了MapReduce的算子ma...原创 2019-01-05 19:45:42 · 2769 阅读 · 0 评论 -
spark概述
一系列问题:重复计算、使用范围的局限性、资源分配、统一管理为了解决上述MapReduce及各种处理框架所带来的问题,加州大学伯克利分校推出了Spark统一大数据处理框架。Spark是一种与Hadoop MapReduce类似的开源集群大数据计算分析框架。Spark基于内存计算,整合了内存计算的单元,所以相对于hadoop的集群处理方法,Spark在性能方面更具优势。Spark启用了弹...原创 2019-01-05 19:29:30 · 154 阅读 · 0 评论 -
详解:Spark程序的开始 SparkContext 源码走一走
Spark程序的开始 SparkContext 源码走一走什么是SparkContextIDEA中看看源码**Main entry point for Spark functionality. A SparkContext represents the connection to a Sparkcluster, and can be used to create RDDs, accum...原创 2019-08-27 16:35:23 · 244 阅读 · 0 评论