Spark
walker_storage
这个作者很懒,什么都没留下…
展开
-
Spark基础知识系列(1)
Spark的设计目的是克服MapReduce模型缺陷,能在多场景处理大规模数据。它的计算 模型是基于内存的抽象数据类型RDD.适用于批处理,迭代式计算模型。 Spark体系结构包括Spark SQL,Spark Streaming,MLlib,GraphX. Core库中包括:Spark Context抽象数据集RDD调度器SchedulerShuffleSerializer等Ha原创 2017-01-12 23:35:13 · 344 阅读 · 0 评论 -
Spark安装与使用
本教程的具体运行环境如下:CentOS 6.7Spark 2.1.0Hadoop 2.7.3Java JDK 1.8.0Scala 2.11.8准备工作安装JDK,并配置好JAVA_HOME变量。此外,Spark会用到HDFS与YARN,因此请先安装Hadoop,具体请浏览hadoop安装教程。安装Spark本教程选用的是Spark 2.1.0版本,选择package type为Pre-原创 2017-01-20 21:38:13 · 782 阅读 · 0 评论 -
使用Intellij Idea搭建Spark开发环境
环境:Cent OS 6.7jdk1.8.0_101Spark-1.6.3-bin-hadoop2.6.tgz下载安装包前去官网下载Spark-1.6.3-bin-hadoop2.6.tgz;或者是自己编译源码生成想要的对应的hadoop版本。 在centos下解压缩到指定目录(笔者为/usr/local/)$tar -zxvf Spark-1.6.3-bin-hadoop2.6.tgz -原创 2017-02-22 23:02:54 · 1580 阅读 · 0 评论 -
Spark基础知识系列一(从hdfs获取文件)
Spark获取文件spark可以从本地,hdfs文件系统,s3,及hadoop支持的文件系统获取文件。从本地:file:///usr/local/xx.txt.import org.apache.spark.{SparkConf, SparkContext}/** * Created by Damon on 3/29/17. */object HelloScala { def main原创 2017-03-29 22:59:13 · 3549 阅读 · 0 评论 -
Spark快速入门之SBT安装
安装sbt本文方法有些繁琐,可以查看github最新更新:用sbt编译spark源码linux版本:CentOS6.7sbt: 0.13.9Spark中没有自带sbt,需要手动安装sbt,我的方法是下载sbt-launch.jar,然后将源改为国内源(aliyun),我选择将sbt安装在/usr/local/sbt中。$sudo mkdir /usr/local/sbt$sudo cho原创 2017-01-16 11:25:14 · 15263 阅读 · 0 评论 -
编译Spark-1.6.3源码--Maven工具
编译环境Cent OS 6.7JDK1.8.0_101Spark-1.6.3.tgz写在前面:由于maven源在国外,笔者用国内镜像(阿里云)代替。查看版本信息下载Spark-1.6.3.tgz,解压后查看pom.xml,可以看到scala版本为2.10.5,zinc版本为0.3.5.3,Maven版本为3.3.3。下载安装包去官网下载scala-2.10.5.tgz、apache-maven-3.原创 2017-02-20 23:50:04 · 2065 阅读 · 0 评论