自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 【Spark】 Spark为啥更高效?

一 Spark为啥比Hadoop MapReduce有更快的执行速度?1)RDD的编程模型更简单。MapReduce编程模型是面向过程编程,RDD编程模型是面向对象(RDD)编程。2)DAG切分的多阶段计算过程更快速。MapReduce简单粗暴的根据shuffle将大数据计算分成Map和Reduce两个阶段。Spark会更细腻一点,将前一个Reduce和后一个Map连接起来,当做一个阶段持续计算,形成一个更加优雅、高效的计算模型。这种多个计算阶段依赖的方案可以有效减少对HDFS的访问,减少作业的调

2021-08-30 11:08:14 407

原创 【Spark】配置项调优

配置项可以分为三大类:硬件资源类、Shuffle类和Spark SQL类。一 硬件资源类1.1 cpu相关配置主要是配置 并行度 和 并行计算任务。1.1.1 并行度并行度,是从数据触达,明确数据划分的粒度,确定分布式数据集被划分为多少份。1.1.2 并行计算任务并行计算任务,是从计算任务、CPU出发,指的是任一时刻整个集群能够同时计算的任务数量。1.2 内存相关配置1.2.1 堆内存储与堆外存储的平衡堆外内存的传递门:****总之,与JVM堆内内存相比,堆外内存的优势是:可以更精确的

2021-08-23 21:34:33 478

原创 【Spark】Shuffle机制

一 Shuffle机制运行在不同stage、不同节点上的task如何进行数据传递?这个数据传递过程通常被称为Shuffle机制。该机制除了数据传递,还负进行各种类型的计算(如聚合、排序等),并且数据量一般会很大。二 Shuffle面临的一些问题2.1 map()端数据分区问题如何确认数据分区个数?用户可以自定义分区个数。用户没定义的话,默认分个数是parent RDD的分区个数的最大值。如何对map()端的输出数据进行分区?map task输出的每个<K,V>记录,都根据Key

2021-08-22 20:55:32 248

原创 【大数据之路】第5章 实时技术

5.1 简介为什么要有实时数据?以便实时监控当前业务状态并作出运营决策,引导业务往好的方向发展什么是流式数据处理?流式数据处理技术是指业务系统每产生一条数据,就会立刻被采集并实时发送到流式任务中进行处理,不需要定时调度任务来处理数据流式数据处理的特征...

2021-04-12 08:21:07 176

原创 【英语学习】01-02 interview

面试中谈起以往经验可以多举例子,常用语:a good example that comes to my mind is ……ex:A good example that comes to my mind is when I was involved with a campaign to promote and sell a new range of clothes.I loved doing it and it was……谈团队合作Could you give me an example of g

2021-03-28 16:15:48 239

原创 【Scala】学习笔记六——读取外部数据

1.读取文件及网络数据object ReadFileApp extends App { val file=scala.io.Source.fromFile(&quot;E:\\data\\hello.txt&quot;) //读取指定文件 //一行一行读取文件 def readLine: Unit ={ for(line&amp;lt;-file.getLines()){ print...

2018-11-08 16:20:20 542

原创 【Scala】学习笔记五——隐式转换

隐式转换:为一个已经存在的东西,添加一个功能需求(比如:为一个已经存在的类添加一个新的方法)满足上述需求,Java使用的是动态管理,Scala使用的是隐式转换一个例子://定义了两个类Man和Superman,现在的需求是Man的对象也可以拥有fly()方法object ImplicitApp extends App { val man=new Man("Nina") //定义隐...

2018-11-08 16:02:30 114

原创 【Scala】学习笔记四——模式匹配 match

一、最基本的模式匹配例子://格式为://变量 match{// case value1=&gt;代码// case value2=&gt;代码// ……// case _=&gt;代码//} def judgeGrade(grade:String): Unit ={ grade match{ case "A"=&gt;println("E...

2018-11-05 19:11:59 365

原创 【Scala】学习笔记三——面向对象

一、面向对象的概 (Object Oriented——OO)1.封装:将属性、方法封装到类中2.继承:父类和子类之间的关系3.==多态:==父类引用指向子类对象多态是面向对象编程的精髓所在,是开发框架的基础二、类的定义和使用//main方法 def main(args: Array[String]): Unit = { val person=new Person() ...

2018-11-04 11:04:55 172

原创 【Spark】学习笔记二——RDDs

一、一些对象1.Driver Program:包含程序的main()方法,RDDs的定义和操作,它管理很多节点,我们称之为executors2.SparkContext:Driver Program通过SparkContext对象访问Spark,SparkContext对象代表和一个集群的连接3.在shell中SparkContext对象自动创建好了,就是sc,可以在shell中直接使用sc...

2018-10-26 15:57:39 464

原创 【Spark】学习笔记

Spark是一个快速且通用的集群计算框架一、Spark的特点1.Spark是快速的:Spark扩充了流行的MapReduce计算框架Spark是基于内存的计算2.Spark是通用的:Spark的涉及容纳了其他分布式系统拥有的功能:批处理、迭代式计算、交互查询和流处理等其优势是:降低了维护的成本3.Spark是高度开放的:Spark提供了Python、Java、Scala、SQL的...

2018-10-26 14:45:47 438

原创 【scala】学习笔记二——集合

一、List1.List[T]:T是泛型,指的是list中的类型,scala会自行推导,因此可以不指明T2.List的声明与定义:scala&amp;amp;amp;amp;amp;gt; val a=List(1,2,3,4)a: List[Int] = List(1, 2, 3, 4)3.连接操作符1)::scala&amp;amp;amp;amp;amp;gt; val b=0::a //把0插在了a前面形成了bb: List[Int] = Li...

2018-10-23 20:24:45 173

原创 【scala】学习笔记一

[scala]学习笔记一一、scala的特点:1.Scalable编程语言 (可伸缩的,既可以是脚本语言,又可以为大型服务器所使用)2.纯正的面向对象的语言3.函数式语言4.无缝的Java互操作二、scala函数式的编程思想:1.纯函数,不具有副作用2.引用透明3.函数是一等公民:一切都是计算,函数式编程中只有表达式和变量!函数也是表达式三、变量1.val:定义常量(immu...

2018-10-22 22:16:22 146

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除