![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
lovezhaohaimig
这个作者很懒,什么都没留下…
展开
-
spark-RDD
RDD 是什么?RDD,全称为 Resilient Distributed Datasets,是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD 还提供了一组丰富的操作来操作这些数据。在这些操作中,诸如 map、flatMap、filter 等转换操作实现了 monad 模式,很好地契合了 Scala 的集合操作。除此之外,RDD 还提供了...原创 2019-01-06 09:46:31 · 370 阅读 · 3 评论 -
spark第一个程序
package com.dt.sparkimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextobject WordCount { def main(args: Array[String] ){ /** * 第1步,创建Spark的配置对象SparkConf ,设置Spar...原创 2019-01-06 10:23:55 · 212 阅读 · 0 评论 -
spark-sql
sparksqlpackage com.test.sparkimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextobject Tset3 { def main(args: Array[String] ){ /** * 第1步,创建Spark的配置对象SparkCon...原创 2019-01-08 00:00:23 · 96 阅读 · 0 评论 -
spark运行原理讲解
Spark RDD 强性强性一: 自动的老蚌生珠内存和磁盘数据存储的切换强性二:基于Lineage的高校容错强性三:Task如果失果失败会自动进行特定次数的重试强性四:Stage如果失败会自动进行特定次数的重试,而且只计算失败的分片强性五:chechpoint(检查点)和persist(持久化)强性六:DAG、TASK 和资源管理无关强性七:数据分片的高度强性...原创 2019-01-13 17:45:03 · 165 阅读 · 0 评论 -
spark键值对转换操作例子
题目:给定一组键值对(“spark”,2),(“hadoop”,6),(“hadoop”,4),(“spark”,6),键值对的key表示图书名称,value表示某天图书销量,请计算每个键对应的平均值,也就是计算每种图书的每天平均销量。很显然,对于上面的题目,结果是很显然的,(“spark”,4),(“hadoop”,5)。package cn.com.day1import org.ap...原创 2019-04-28 16:06:38 · 1234 阅读 · 0 评论 -
spark-slq
package com.base.sparkimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql._import org.apache.spark.sql.hive.HiveContextobject Test_03 { def main(...原创 2019-06-12 00:38:47 · 125 阅读 · 0 评论