![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
一路狂飚飚
前进中.....
展开
-
001数据算法--二次排序
啊啊啊原创 2019-10-17 10:03:18 · 207 阅读 · 0 评论 -
spark中RDD相关API
spark中RDD相关操作transformation 算子(转换算子)map(func) 返回一个新的RDD,该RDD由每一个输入元素经过函数转换后组成。2.flatMap(func) 将原来RDD中的每个元素通过函数转换为新的元素,并将生成的RDD的每个集合中的元素合并为一个集合。flatMap对每个元素处理之后,得到的每个小的集合中的元素合并为一个大集合。这里可以理解为:f...原创 2019-04-09 11:26:09 · 411 阅读 · 0 评论 -
spark入门WordCount代码解读
WordCount代码解读object WordCount extends App { //setMaster:指定spark的运行模式,这里指定为本地运行 //local[1]:指定线程数 val conf = new SparkConf().setMaster("local[1]").setAppName("WC") //创建SparkContext...原创 2019-04-09 11:51:00 · 1933 阅读 · 0 评论 -
RDD工作原理详解
一、Spark概念总结简要说明:每个Spark应用都由一个驱动器程序(driver program)来发起集群上的各种 并行操作。驱动器程序包含应用的 main 函数,并且定义了集群上的分布式数据集,还对这 些分布式数据集应用了相关操作。驱动器程序通过一个 SparkContext 对象来访问 Spark。这个对象代表对计算集群的一个连 接。shell 启动时已经自动创建了一个 Spar...原创 2019-04-09 15:21:24 · 2667 阅读 · 0 评论 -
Spark On Standalone框架 和 Spark On Yarn 框架
Spark On Standalone框架1 master和worker节点在standalone模式下,一个集群有一个master节点和多个worker节点。master负责管理worker,客户端会把应用提交到master节点运行。worker节点与master节点通信,并且管理executor进程。2 driver和executor进程driver进程就是应用的main()函数并...原创 2019-04-09 16:18:12 · 1003 阅读 · 0 评论 -
scala知识点 First---------- 类、对象、
类1、在Scala中,类并不声明为Public,一个Scala源文件可以包含多个类。所有这些类都具有公有可见性。调用无参方法时,可以加(),也可以不加例如:val dog = new Dog2、avaBeans规范定义了Java的属性是像getXXX()和setXXX()的方法。许多Java工具都依赖这个命名习惯。为了Java的互操作性。将Scala字段加@BeanProperty时...原创 2019-04-09 23:14:25 · 473 阅读 · 0 评论 -
大数据开发—求职学习 spark first
大数据开发—求职学习 spark first问题1:为什么spark 比MapReduce速度快?spark是内存运算框架,数据在内存中进行计算。通过spark来对数据进行迭代时,不用将数据保存到磁盘中,无需进行IO操作,相对于MapReduce可以节约大量的时间。MapReduce则需要将产生的所有的中间结果保存到磁盘中,在每次进行执行运算时都要从磁盘中读取数据,在执行完成后得到的结果还要...原创 2019-06-13 20:51:15 · 126 阅读 · 0 评论