【校招VIP】java开源框架之spark

考点介绍:

考点介绍:Spark,是一种"One Stack to rule them all"的大数据计算框架,期望使用一个技术堆栈就完美地解决大数据领域的各种计算任务。Apache官方,对Spark的定义就是:通用的大数据快速处理引擎。

本期分享的java开源框架之spark,分为试题、文章以及视频三部分。

答案详情解析和文章内容点击下方链接即可查看!

一、考点题目

1.spark为什么比hadoop的mr要快?

解答:Spark比Hadoop快的主要原因:在内存核算战略和先进的DAG调度等机制的协助下,Spark能够用更快速度处理一样的数据集。1.spark基于内存、消除了冗余的HDFS读写,MapReduce在每次执行时都要从磁盘读取数据,计算完毕后都要把数据存放到磁盘上。 Hadoop每次shuffle(分区合并排序等……)操作后,必须写到磁盘,而Spark是基于内存的。Spark在shuffle后不一定落盘,可以cache到内存中,以便迭代时使用……

2.spark中的RDD是什么,有哪些特性?

解答:RDD (Resilient Distributed Dataset)叫做分布式数据集,是spark中 最基本的数据抽象,它代表一个不可变, 可分区, 里面的元素可以并行计算的集合,Dataset:就是一个集合,用于存放数据,Destributed:分布式,可以并行在集群计算,Resilient:表示弹性的,弹性表示……

3.概述一下spark中的常用算子区别(map,mapPartitions, foreach, foreachPatition)

解答:map:用于遍历RDD,将函数应用于每一个元素, 返回新的RDD (transformation算子),foreach:用于遍历RDD,将函数应用于每一个元素,无返回值(action算子),mapPatitions:用于遍历操作RDD中的每一个分区, 返回生成一个新的RDD (transformation算子),foreachPatition:用于遍历操作RDD中的每-个分区,无返回值(action算子 )……

4.下面哪个不是 RDD 的特点 ( )

A.可分区

B.可序列化

C.可修改

D.可持久化

正确答案:C,RDD (Resilient Distributed Dataset)叫做分布式数据集,是spark中 最基本的数据抽象,它代表一个不可变, 可分区, 里面的元素可以并行计算的集合,所以“可修改”错误……

(答案点击下方链接查看哦)

二、考点文章

1.【校招VIP】Spark概述

Spark是什么,Apache Spark是一个快速的、多用途的集群计算系统,相对于Hadoop MapReduce将中间结果保存在磁盘中,Spark使用了内存保存中间结果,能在数据尚未写入磁盘时在内存中进行运算。Spark只是一个计算框架,不像Hadoop一样包含了分布式文件系统和完备的调度系统,如果要使用Spark,需要搭载其它的文件系统和成熟的调度系统……

2.【校招VIP】Spark基础操作(一)

一、搭建学习环境,1、下载spark,我使用的是spark1.6.2,下载地址,我们直接下载,然后解压。我们看看里面的目录,2、python-shell,我们运行bin/pyspark之后就进入了spark的python shell。我们为了验证是否成功了,可以运行下面的代码……

3.【校招VIP】30分钟理解Spark的基本原理

一,Spark优势特点,作为大数据计算框架MapReduce的继任者,Spark具备以下优势特性。1,高效性,不同于MapReduce将中间计算结果放入磁盘中,Spark采用内存存储中间计算结果,减少了迭代运算的磁盘IO,并通过并行计算DAG图的优化,减少了不同任务之间的依赖,降低了延迟等待时间。内存计算下,Spark 比 MapReduce 快100倍……

三、考点视频

1.二叉树叶子结点数=度为2结点数+1

这是二叉树最常考的性质之一,是校招和考研笔试的考点。性质有数学的定理一样,掌握了这种题就是送分题,没掌握花很长时间也得不了分……

移动端链接:https://m.xiaozhao.vip/dTopic/detail/459

PC端链接:https://xiaozhao.vip/dTopic/detail/459

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值