Spark
BigMoM1573
淡泊名利
展开
-
Spark面试汇总
文章目录1、Spark有几种部署方式?(重点)2、Spark提交作业参数(重点)3、简述Spark on yarn的作业提交流程(重点)4、请列举Spark的transformation算子(不少于5个)(重点)5、请列举Spark的action算子(不少于5个)(重点)6、简述Spark的两种核心Shuffle(重点)7、简述SparkSQL中RDD、DataFrame、DataSet三者的区别与联系?(重点)8、Repartition和Coalesce关系与区别(重点)9、Spark中cache默认缓存原创 2020-05-25 20:43:41 · 583 阅读 · 0 评论 -
Spark>简答题
文章目录Spark1、什么是Spark2、Spark特点3、Spark运行模式4、Spark编写代码SparkCore1、什么是RDD2、RDD的主要属性3、RDD的算子分为两类:4、Rdd数据持久化什么作用?5、cache和Checkpoint的区别6、什么是宽窄依赖7、什么是DAG8、DAG边界9、Spark概念10、Spark执行任务的基本流程1、累加器的作用2、广播变量的作用SparkSQ...原创 2020-04-24 11:01:57 · 2235 阅读 · 0 评论 -
Spark>sql练习题
练习题-------------------------------以下使用Structured Streaming:-------------------------------1、请使用Structured Streaming读取Socket数据,统计出每个单词的个数2、请使用Structured Streaming读取student_info文件夹写的csv文件,2.1、统计出文件...原创 2020-04-21 20:53:28 · 1391 阅读 · 0 评论 -
Spark>提交Yarn集群报错异常
文章目录如果整合Yarn报错或无法查看log需做如下操作配置历史日志服务器异常二:如果整合Yarn报错或无法查看log需做如下操作1.修改hadoop的yarn-site.xmlvim /export/servers/hadoop/etc/hadoop/yarn-site.xml <property> <name>yarn.res...原创 2020-04-11 16:18:11 · 816 阅读 · 0 评论 -
Spark> IDEA编写Spark程序
创建Maven项目并补全目录、配置pom.xml导入pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" ...原创 2020-04-11 00:28:22 · 125 阅读 · 0 评论 -
Spark>Spark环境搭建
文章目录Spark环境搭建1、local本地模式-Spark初体验2、standalone集群模式3、standalone-HA高可用模式4、on yarn集群模式cluster模式client模式[了解]两种模式的区别Spark参数详解spark-shellspark-submit参数总结Spark环境搭建我们选择目前企业中使用最多的稳定版Spark2.2.01、local本地模式-Sp...原创 2020-04-11 00:11:39 · 478 阅读 · 0 评论 -
Spark>Spark介绍 及 运行模式
文章目录1、Spark官方介绍1、2. Spark发展史1、3. Spark特点Spark特点-小结1.4、Spark为什么会流行扩展阅读:Spark VS Hadoop1.5、 Spark运行模式1、Spark官方介绍官网APIhttp://spark.apache.orghttp://spark.apachecn.orgSpark是什么Apache Spark是用于大规模数...原创 2020-04-10 21:28:41 · 200 阅读 · 0 评论