spark
文章平均质量分 67
coley-wu
孟浪
展开
-
Spark入门(六):共享变量(累加器和广播变量)
1.共享变量1.1累加器对信息进行聚合,常见用途是在调试时对作业执行过程中的时间进行计数使用过程通过在驱动器中调用 SparkContext.accumulator(initialValue) 方法,创建出存有初 始值的累加器。返回值为 org.apache.spark.Accumulator[T] 对象,其中 T 是初始值 initialValue 的类型。park闭包里的执行器代码可以使原创 2017-08-16 10:18:05 · 670 阅读 · 0 评论 -
Spark源码无法下载
官方源码下载地址 选择版本,选择源码如图: 下载连接依然指向的是编译好的二进制文件。F12 Spark官网的js竟然报错了 = _ =!!。 还好官网源码提供了下载路径 https://archive.apache.org/dist/spark/原创 2017-11-06 17:54:28 · 2279 阅读 · 1 评论 -
Spark Programming Guide(三)
Working with Key-Value PairsWhile most Spark operations work on RDDs containing any type of objects, a few special operations are only available on RDDs of key-value pairs. The most common ones are dis原创 2017-09-22 10:36:56 · 566 阅读 · 0 评论 -
Spark Programming Guide(二)
spark中文文档 Spark Programming Guide(二)原创 2017-09-19 15:58:53 · 914 阅读 · 0 评论 -
Spark Programming Guide(五)
RDD PersistenceOne of the most important capabilities in Spark is persisting (or caching) a dataset in memory across operations. When you persist an RDD, each node stores any partitions of it that it c原创 2017-09-26 09:39:02 · 503 阅读 · 0 评论 -
Spark Programming Guide(四)
Shuffle operationsCertain operations within Spark trigger an event known as the shuffle. The shuffle is Spark’s mechanism for re-distributing data so that it’s grouped differently across partitions. Th原创 2017-09-23 12:03:46 · 551 阅读 · 0 评论 -
Spark入门(七):Spark运行时架构
在一个 Spark 集群中,有一个节点负责中央协调,调度各个分布式工作节点。这个中央协调节点被称为驱动器(Driver)节点,与之对应的工作节点被称为执行器(executor)节点。驱动器节点可以和大量的执行器节 点进行通信,它们也都作为独立的 Java 进程运行。驱动器节点和所有的执行器节点一起被称为一个 Spark 应用(application)。一、Spark驱动程序Spark 驱动器是执行原创 2017-08-24 16:08:08 · 604 阅读 · 0 评论 -
Spark官方文档翻译:Spark Programming Guide(一)
spark中文文档原创 2017-09-06 11:54:10 · 980 阅读 · 0 评论 -
Spark官方文档翻译:Quick Start
Spark中文文档原创 2017-09-05 12:46:11 · 1230 阅读 · 0 评论 -
Spark入门(五):键值对RDD
1.创建PairRDD普通RDD转Pair RDDval rdd = sc.parallelize(Array("java","scala"))rdd.foreach(println)//java//scalaval pairRdd = rdd.map(w => (w,"编程语言"))pairRdd.foreach(print)//(java,编程语言)//(scala,编程语言)2原创 2017-08-14 16:30:24 · 1124 阅读 · 0 评论 -
Spark入门(四):RDD基本操作
1.RDD转换RDD的所有转换操作都不会进行真正的计算1.1单个RDD转换操作# 创建测试RDDval rdd = sc.parallelize(Array("hello world","java","scala easy"))# 1.map():遍历RDD中的每个元素,将返回值构成新的RDD,返回值类型可和原RDD不一致val mapRdd = rdd.map(x => "map:"+x)m原创 2017-08-14 10:29:34 · 2641 阅读 · 0 评论 -
Spark入门(三):RDD概述
1.RDD概述Spark 对数据的核心抽象—弹性分布式数据集(Resilient Distributed Dataset,简 称 RDD)1.1 不可变RDD是一个不可变的分布式对象集合,一旦创建便不能修改。1.2 分区每个RDD都可被分为多个分区,分布在不同的节点机器之上1.3 转换(transformation)转化操作会由一个 RDD 生成一个新的 RDD,从已有的RDD派生出新的RDD,S原创 2017-08-12 22:39:28 · 635 阅读 · 0 评论 -
Spark入门(二):打包程序、提交任务到集群
1.环境工具1.1环境 系统 centos jdk 1.8.0_144 scala 2.11.8 hadoop 2.7.3 spark 2.1.01.2打包工具IDEA + sbt2.打包2.1安装插件需要预先安装scala插件,点击File ->Setting ->Plugins ->输入框输入scala->install 安装完成需要重启IDE2.2创建原创 2017-08-11 16:07:43 · 2276 阅读 · 0 评论 -
Spark入门(一):核心概念简介
1.Spark核心概念简介1.1程序驱动器每个 Spark 应用都由一个驱动器程序(driver program)来发起集群上的各种 并行操作。驱动器程序包含应用的 main 函数,并且定义了集群上的分布式数据集,还对这 些分布式数据集应用了相关操作。 驱动器程序通过一个 SparkContext 对象来访问 Spark。这个对象代表对计算集群的一个连 接。 使用Scala初始化Spark原创 2017-08-11 15:22:06 · 608 阅读 · 0 评论 -
Spark整合Mongodb
环境准备 mongodb下载 解压安装启动mongodb服务$MONGODB_HOME/bin/mongod --fork --dbpath=/root/data/mongodb/ --logpath=/root/data/log/mongodb/mongodb.log pom依赖 <dependency> <groupId>org.mongodb.spark</groupI原创 2017-11-13 18:14:36 · 5061 阅读 · 0 评论