Spark
专注大数据
专注大数据领域
展开
-
大数据面试-Spark专题-002
目录:01、Spark常用算子reduceByKey与groupByKey的区别,哪一种更具优势?02、如何使用Spark实现TopN的获取(描述思路或使用伪代码)03、分别简述Spark中的缓存机制(cache和persist)与checkpoint机制,并指出两者的区别与联系04、当Spark涉及到数据库的操作时,如何减少Spark运行中的数据库连接数?05、简述Spark中共享变量(广播变量和累加器)的基本原理与用途。01、Spark常用算子reduceByKey与groupByKey的区别,哪一种原创 2020-07-10 18:39:58 · 574 阅读 · 0 评论 -
大数据面试-Spark专题-001
这里写目录标题1、Spark有几种部署方式?请分别简要论述2、Spark提交作业参数,及参数常规设置?3、简述Spark的宽窄依赖,以及Spark如何划分stage,每个stage又根据什么决定task个数?4、Spark任务使用什么进行提交,JavaEE界面还是脚本?5、简述Spark的架构与作业提交流程(画图并注明务个部分作用)1、Spark有几种部署方式?请分别简要论述1)Local:运行在一台机器上,通常是练手或者测试环境。2)Standalone:构建一个基于Mster+Slaves的资源调原创 2020-07-07 08:40:36 · 423 阅读 · 0 评论 -
Spark(02)——Spark快速度入门、WordCount案例
目录一、创建工程二、增加依赖关系三、WordCount案例四、异常处理一、创建工程我们使用的Spark版本为2.4.5,默认采用的Scala版本为2.121、创建 IDEA 工程2、增加 Scala 支持二、增加依赖关系修改Maven项目中的POM文件,增加Spark框架的依赖关系。本课件基于Spark2.4.5版本,使用时请注意对应版本。<dependencies> <dependency> <groupId>org.apach原创 2020-06-02 20:52:04 · 382 阅读 · 0 评论 -
Spark(03)——Spark四种运行部署模式:Local模式、Standalone模式、Yarn模式、Windows模式
目录一、Local模式二、Standalone模式**6、配置历史服务**三、Yarn模式四、Windows模式Spark作为一个数据处理框架和计算引擎,被设计在所有常见的集群环境中运行, 在国内工作中主流的环境为Yarn,不过逐渐容器式环境也慢慢流行起来。接下来,我们就分别看看不同环境下Spark的运行一、Local模式所谓的Local模式,就是不需要其他任何节点资源就可以在本地执行Spark代码的环境,一般用于教学,调试,演示等,之前在IDEA中运行代码的环境我们称之为开发环境,不太一样。1、原创 2020-06-02 20:32:29 · 2491 阅读 · 0 评论 -
Spark(01)——Spark概念
Spark-Core 和 弹性分布式数据集(RDDs)Spark-Core 是整个 Spark 的基础, 提供了分布式任务调度和基本的 I/O 功能Spark 的基础的程序抽象是弹性分布式数据集(RDDs), 是一个可以并行操作, 有容错的数据集合RDDs 可以通过引用外部存储系统的数据集创建(如HDFS, HBase), 或者通过现有的 RDDs 转换得到RDDs 抽象提供了 Ja...原创 2020-04-14 00:32:25 · 331 阅读 · 0 评论