- 博客(4)
- 资源 (1)
- 收藏
- 关注
原创 3.1、Spark核心概念——RDD概述
总结: Spark-RDD创建过程: 1、创建一个 SparkConf 对象 sc 2、通过 SparkConf 对象创建一个 SparkContext 对象 3、通过 SparkContext 对象创建一个 RDD 对象 4、通过 RDD 对象来操作数据一、Spark应用的运行方式 1、每个 Spark 应用都由一个驱动器程序( driver program)来发起集群上的各种并行操作
2017-03-09 15:17:36 312 1
原创 2.2、配置Spark-sql(连接Hive)
一、复制Hadoop目录下的hdfs-site.xml和Hive目录下的hive-site.xml到/usr/spark/spark-2.1.0/conf目录下二、cp spark-env.sh.template spark-env.sh,编辑spark-env.sh文件添加如下内容: export JAVA_HOME=/usr/java/jdk1.8.0_102 export CLASSPAT
2017-03-09 15:14:58 1185
原创 Spark开发环境搭建
一、下载spark安装包:http://spark.apache.org/downloads.html二、将这个包解压到:/usr/spark 目录下三、进入目录:/usr/spark/spark-2.1.0/bin 选择需要启动的脚本, 例如python的shell:./pyspark启动成功后如下图所示:四、编辑环境变量:vim ~/.bashrc 增加如下内容Set Sparkexport
2017-03-02 22:47:16 247
原创 什么是Spark
一、Spark是什么? 简单来说,Spark是一个通用计算框架,是一个用来实现快速而通用的集群计算的平台,是一个大一统的软件栈(Spark 项目包含多个紧密集成的组件)。 Spark 的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、 分发以及监控的计算引擎,有着速度快和通用的特点,支持为各种不同应用场景专门设计的高级组件,比如 SQL 和机器学习等。
2017-03-01 23:04:56 889
UEstadio9 注册机
2013-11-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人