![](https://img-blog.csdnimg.cn/20190918140129601.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
SparkCore基础篇
源于若泽数据公开课,哔哩哔哩搜索若泽大数据可见,此乃课程总结
Spark on yarn
这个作者很懒,什么都没留下…
展开
-
Spark基础篇(六) - IDEA开发Spark代码
一、Spark项目开发流程回顾二、Spark应用程序开发2.1、Hive下求用户访问量的TopN && Spark-Core实现2.2、Spark-Core求出平均年龄2.3、求男女人数、最低、最高身高三、IDEA整合Maven搭建Spark应用程序3.1、案例开发&&上传jar包到服务器&&测试数据准备3.2、结果输出到控制台&&HDFS目录3.3、处理多个输入文件&&输入文件规则匹配&&原创 2020-06-08 19:45:20 · 596 阅读 · 0 评论 -
Spark基础篇(五) - RDD的高级算子&&IDEA搭建、开发Spark应用程序
一、RDD常用算子再次实验二、JOIN在Spark Core中的使用2.1、使用Spark-Core进行词频统计分析2.2、RDD中subtract && intersection && cartesian使用详解三、IDEA整合Maven搭建Spark应用程序一、RDD常用算子再次实验1、新建一个数据集:scala> val a = sc.parallelize(List(1,2,3,4,5,6,7,8,9))a: org.apache.spark原创 2020-06-08 12:39:26 · 460 阅读 · 0 评论 -
Spark基础篇(四) - RDD的创建和算子使用
一、SparkContext、SparkConf内容回顾二、RDD创建的两种方式2.1、官网对于SparkConf的描述2.2、spark-submit的最佳实践三、使用idea构建SparkContext3.1、spark-shell查看命令帮助&&在客户端中使用3.2、此处涉及的参数调优点四、一些思考题一、SparkContext、SparkConf内容回顾1、SparkContext、SparkConf、spark-shell中一些常用参数介绍2、开发程序前原创 2020-06-07 10:48:29 · 615 阅读 · 0 评论 -
Spark基础篇(三) - 创建RDD的前提(先创建SparkContext、SparkConf)
一、RDD五大特性回顾二、创建Spark应用程序前需要创建SparkContext2.1、官网对于SparkConf的描述2.2、spark-submit的最佳实践三、使用idea构建SparkContext3.1、spark-shell查看命令帮助&&在客户端中使用3.2、此处涉及的参数调优点四、一些思考题一、RDD五大特性回顾面试相关:1、RDD是什么?为什么是分布式?为什么是弹性?谈一下你对RDD的理解?结合RDD.scala进行理解;RDD五大特性与源码原创 2020-06-04 17:38:18 · 1000 阅读 · 0 评论 -
Spark基础篇(二) - RDD的理论知识
一、什么是RDD二、RDD的源码定义三、RDD五大特性详解四、RDD五大特性和源码的对应关系五、图解RDD一、什么是RDD在Spark中,建议大家面向DF/DS编程,但是不管怎么滴,RDD的理解对于后续使用高级别的API使用会更好。RDD:Resilent Distributed Dataset,弹性分布式数据集,是Spark中最基本的数据抽象(the basic abstraction in spark)作用:让开发者大大降低开发分布式应用程序的门槛及提高执行效率。直接GitHub上查看原创 2020-06-04 15:04:39 · 232 阅读 · 0 评论 -
Spark基础篇(一) - 概述&&源码编译
第一章:MapReduce的局限性–>Spark的产生1.1 各个框架单独为战&&使用Spark框架做对比第二章:Spark概述及特点2.1 四大特性(Speed、Ease Of Use、Generality、Runs Everywhere)2.2 Spark各个版本介绍第三章:自定义编译Spark3.1 Spark目录解读3.2 在Spark客户端上完成一个wordcount第一章:MapReduce的局限性–>Spark的产生繁杂,不管是开发原创 2020-06-03 17:32:50 · 326 阅读 · 0 评论