RDD
文章平均质量分 70
huangyinzhao
这个作者很懒,什么都没留下…
展开
-
DataFrame 创建方式和操作(Spark 中的核心知识,用来计算结构化数据)
一、 scala版本1.1:用javabean类型的rdd创建 val sparkConf = new SparkConf().setMaster("local").setAppName("adaa") val sc = new SparkContext(sparkConf) var sqlcontext = new SQLCont...原创 2018-06-11 21:38:57 · 1128 阅读 · 0 评论 -
RDD 直接存入MySQL,以及直接读取MySQL中数据
在spark中,直接把RDD文件存到数据库中。 object IPLocation { //每个分区连接一次MySQL,并且存储数据。 val data2MySQL =(iterator: Iterator[(String, Int)]) => { var conn: Connection =null var ps :PreparedStatement = null //这...原创 2018-05-17 21:46:06 · 3315 阅读 · 0 评论 -
spark中wordcount执行的数据流向
转载 2018-05-18 13:42:41 · 258 阅读 · 0 评论 -
spark数据缓存到内存中的方法
RDD.cache()一般用法: sc.textFile(" 路径").cache 数据就已经缓存到内存中,可以提高运算速度,当然要注意,我们的内存容量原创 2018-05-18 19:18:44 · 5977 阅读 · 0 评论 -
Scala中高级算子,combineByKey
为什么单独讲解combineByKey?因为combineByKey是Spark中一个比较核心的高级函数,其他一些高阶键值对函数底层都是用它实现的。诸如 groupByKey,reduceByKey等等如下给出combineByKey的定义,其他的细节暂时忽略(1.6.0版的函数名更新为combineByKeyWithClassTag)[java] view plain copydef combi...转载 2018-05-16 19:32:32 · 1096 阅读 · 0 评论 -
Spark RDD 整理
目录 Spark计算模型... 1 1. 课程目标... 1 1.1. 熟练使用RDD的算子完成计算... 1 1.2. 掌握RDD的原理... 1 2. 弹性分布式数据集RDD.. 1 2.1. RDD概述... 1 2.1.1. 什么是RDD.. 1 2.1.2. RDD的特性... 1...原创 2018-05-28 00:15:56 · 191 阅读 · 0 评论 -
Spark的RDD操作之Join大全!
一、RDD的Join操作有哪些?(一)Join:Join类似于SQL的inner join操作,返回结果是前面和后面集合中配对成功的,过滤掉关联不上的。源代码如下:[plain] view plain copy/** * Return an RDD containing all pairs of elements with matching keys in `this` and `other`...转载 2018-05-29 11:59:31 · 2300 阅读 · 0 评论 -
spark性能优化指南---数据倾斜和shuffle调优
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的...转载 2018-06-10 11:52:15 · 303 阅读 · 0 评论