自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

转载 函数传递 依赖 checkpoint

2.5 RDD中的函数传递在实际开发中我们往往需要自己定义一些对于RDD的操作,那么此时需要主要的是,初始化工作是在Driver端进行的,而实际运行程序是在Executor端进行的,这就涉及到了跨进程通信,是需要序列化的。下面我们看几个例子:2.5.1 传递一个方法1.创建一个类class Search(s:String){//过滤出包含字符串的数据 def isMatch...

2018-11-30 20:22:00 169

转载 RDD编程-转换算子

2.1 编程模型在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算,action可以是向应用程序返回结果(count, collect等),或者是向存储系统保存数据(saveAsTextFile等)。在Spark中,只有遇到action,才会执行RDD的计算(即延...

2018-11-30 20:21:00 507

转载 RDD编程-行动算子

2.4 Action2.4.1 reduce(func)案例作用:通过func函数聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据。需求:创建一个RDD,将所有元素聚合得到结果(1)创建一个RDD[Int]scala> val rdd1 = sc.makeRDD(1 to 10,2)rdd1: org.apache.spark.rdd.RDD[Int] =...

2018-11-30 20:16:00 214

转载 RDD概述

1.1 什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。1.2 RDD的属性1) 一组分区(Partition),即数据集的基本组成单位;2) 一个计算每个分区的函数;3) RDD之间的依赖关系;4) ...

2018-11-30 20:13:00 313

转载 Spark安装

1 Spark安装地址运行环境:CentOS 6.8 Hadoop 2.7.2 JDK 1.8 Scala 2.11.8 Spark 2.1.1集群以3台机器模拟:hadoop202 hadoop203 hadoop2041.官网地址http://spark.apache.org/2.文档查看地址https:/...

2018-11-27 21:21:00 159

转载 Java基础-设计模式_1

设计模式1.模板模式TemplateA:模版设计模式概述模版方法模式就是定义一个算法的骨架,而将具体的算法延迟到子类中来实现抽象类(abstract)中的抽象方法(abstract)由子类重写,而最终方法(final)不能被子类重写,但可以直接被子类使用.抽象类中的最终方法不能被子类重写,相当于模板;抽象方法可以在子类中重写,相当于要被模板定型的材料;通常final方法调用...

2018-07-13 16:29:00 103

转载 Java-reflect(反射)初步理解_1

27.01_反射(类的加载概述和加载时机)A:类的加载概述当程序要使用某个类时,如果该类还未被加载到内存中,则系统会通过加载,连接,初始化三步来实现对这个类进行初始化。加载就是指将class文件读入内存,并为之创建一个Class对象。任何类被使用时系统都会建立一个Class对象。连接验证 是否有正确的内部结构,并和其他类协调一致准备 负责为类的静态成员分配内存,并...

2018-07-07 15:26:00 94

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除