Spark 入门
05年发布的 Hadoop 解决了大数据的存储和计算问题。但是,随着数据规模的增长和计算场景的细化,使得Hadoop 越来越难以满足用户的需求。Spark 由此应运而生。本专栏从Spark 源码的编译开始,介绍 Spark 在Linux系统上的搭建,及开发环境的部署。
五道口纳什
wx公众号/B站:五道口纳什
展开
-
Scala 类型、数值类型及类型转换
一、启动切换到 Spark 的根目录,使用 bin/spark-shell 进入 spark shell:[root@ahdoop0 spark-1.3.0-bin-hadoop2.4]# ./bin/spark-shell...scala> 启动的过程中会有如下的提示:16/03/18 13:53:47 INFO Utils: Successfully started service 'Spa原创 2016-03-18 18:02:11 · 2357 阅读 · 0 评论 -
Spark standalone 模式下的集群部署
版本!一、准备工作(1)安装 jdk (建议 jdk7 以上)[root@hadoop0 ~]# echo $JAVA_HOME/usr/local/jdk[root@hadoop0 ~]# java -versionjava version "1.8.0_73"Java(TM) SE Runtime Environment (build 1.8.0_73-b02)Java HotSp原创 2016-03-19 00:06:01 · 1962 阅读 · 0 评论 -
Spark 基础——RDD 算子
一、什么是 RDD?(1)RDD 是 Spark 最基本也是最根本的数据抽象(2)RDD 它具备像 MapReduce 等数据流模型的容错性,为了实现容错,RDD 提供了一种高度受限的共享内存,即 RDD 是只读的,并且只能通过其他 RDD 上的批量操作来创建。(3)它允许开发者在大型集群上执行基于内存的计算现有的数据流系统对以下两种应用的处理并不高效:(1)迭代式算法,而这在图应用和机器原创 2016-03-19 12:28:32 · 1498 阅读 · 0 评论