![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
majiashu
这个作者很懒,什么都没留下…
展开
-
Spark之WordCount(Java代码实现)
本地模式: `/** * WordCountLocal.java * com.majs.spark * Copyright (c) 2017, majiashu版权所有. * @author majiashu */package com.majs.spark;import java.util.Arrays; import java.util.Iterator;import原创 2017-07-25 21:17:05 · 7417 阅读 · 0 评论 -
【Spark】--Spark中的宽窄依赖和Stage的划分
一、前述RDD之间有一系列的依赖关系,依赖关系又分为窄依赖和宽依赖。Spark中的Stage其实就是一组并行的任务,任务是一个个的task 。二、具体细节 窄依赖父RDD和子RDD partition之间的关系是一对一的。或者父RDD一个partition只对应一个子RDD的partition情况下的父RDD和子RDD partition关系是多对一的。...转载 2018-10-23 09:39:35 · 315 阅读 · 0 评论 -
【Spark】--Spark中RDD的理解
1.什么是RDD?RDD:RDD是Spark的计算模型 RDD(Resilient Distributed Dataset)叫做弹性的分布式数据集合,是Spark中最基本的数据抽象,它代表一个不可变、只读的,被分区的数据集。操作RDD就像操作本地集合一样,数据会被分散到多台机器中(以分区为单位)。&nb...转载 2018-10-23 09:46:09 · 346 阅读 · 0 评论