![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
俊杰梓
人的一切痛苦,本质上都是对自己无能的愤怒!
写的不好,请多关照
============
微信:15234940672
展开
-
Spark与Hadoop相比的优缺点
1. Spark 概述1.1. 什么是 Spark(官网:http://spark.apache.org)spark 中文官网:http://spark.apachecn.orgSpark 是一种快速、通用、可扩展的大数据分析引擎,2009 年诞生于加州大学伯克利分校AMPLab,2010 年开源,2013 年 6 月成为 Apache 孵化项目,2014 年 2 月成为 Apache...原创 2018-09-18 20:56:20 · 29763 阅读 · 1 评论 -
Spark精选面试题六(变态篇)
1、Operation category READ is not supported in state standby是什么原因导致的org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category READ is not supported in state st...原创 2018-12-03 19:26:28 · 3555 阅读 · 0 评论 -
Spark精选面试题五(Spark on Yarn面试篇07)
1、简答说一下hadoop的map-reduce编程模型首先map task会从本地文件系统读取数据,转换成key-value形式的键值对集合使用的是hadoop内置的数据类型,比如longwritable、text等将键值对集合输入mapper进行业务处理过程,将其转换成需要的key-value在输出之后会进行一个partition分区操作,默认使用的是hashpartitioner,...原创 2018-12-03 18:38:50 · 779 阅读 · 0 评论 -
Spark精选面试题四(Spark on Yarn面试篇04,Spark Core面试篇05,Spark Core面试篇06)
Spark on Yarn面试篇04本篇题集主要是Spark on Yarn相关的面试题,主要涉及Spark on Yarn、Yarn、Mapreduce相关面试题。1、MRV1有哪些不足1)可扩展性(对于变化的应付能力)a) JobTracker内存中保存用户作业的信息b) JobTracker使用的是粗粒度的锁2)可靠性和可用性a) JobTracker失效会多事集群中所有...原创 2018-12-02 23:03:13 · 4010 阅读 · 0 评论 -
Spark精选面试题三(Spark core面试篇01-03)
Spark Core面试篇011、Spark master使用zookeeper进行HA的,有哪些元数据保存在Zookeeper?答:spark通过这个参数spark.deploy.zookeeper.dir指定master元数据在zookeeper中保存的位置,包括Worker,Driver和Application以及Executors。standby节点要从zk中,获得元数据信息,恢复...原创 2018-12-02 22:33:27 · 5797 阅读 · 2 评论 -
Spark精选面试题二
1、driver的功能是什么?1)一个Spark作业运行时包括一个Driver进程,也是作业的主进程,具有main函数,并且有SparkContext的实例,是程序的人口点;2)功能:负责向集群申请资源,向master注册信息,负责了作业的调度,,负责作业的解析、生成Stage并调度Task到Executor上。包括DAGScheduler,TaskScheduler。2、spark的有几...原创 2018-12-02 21:42:15 · 649 阅读 · 0 评论 -
Spark精选面试题一
1、spark中的RDD是什么,有哪些特性RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。Dataset:就是一个集合,用于存放数据的Distributed:分布式,可以并行在集群计算Resilient:表示弹性的弹性表示1、RDD中的数据可以存储...原创 2018-12-02 21:36:50 · 2617 阅读 · 0 评论 -
数据倾斜原理及解决方案
导读相信很多接触MapReduce的朋友对'数据倾斜'这四个字并不陌生,那么究竟什么是数据倾斜?又该怎样解决这种该死的情况呢?何为数据倾斜?在弄清什么是数据倾斜之前,我想让大家看看数据分布的概念:正常的数据分布理论上都是倾斜的,就是我们所说的20-80原理:80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量 , 不同的数据字...原创 2018-11-20 16:03:22 · 59823 阅读 · 14 评论 -
SparkStreaming,Flink,Storm三大实时框架对比分析
对比分析如果对延迟要求不高的情况下,建议使用Spark Streaming,丰富的高级API,使用简单,天然对接Spark生态栈中的其他组件,吞吐量大,部署简单,UI界面也做的更加智能,社区活跃度较高,有问题响应速度也是比较快的,比较适合做流式的ETL,而 且Spark的发展势头也是有目共睹的,相信未来性能和功能将会更加完善。 如果对延迟性要求比较高的话,建议可以尝试下Fl...原创 2018-10-09 07:57:13 · 3739 阅读 · 0 评论 -
RDD的算子
综述转换类的算子Transformation,会生成新的RDD,lazy执行的。所有的transformation只有遇到action才能被执行行动类的算子action,会立即触发任务的执行,不会生成RDD把数据写入到相应的介质,展示结果数据(收集到driver)Transformationmap一一映射的,对某一个RDD执行map,每一条数据执行操作返回值的数据类...原创 2018-09-27 11:20:10 · 828 阅读 · 0 评论 -
Spark 中 RDD 的详细介绍
RDD ---弹性分布式数据集RDD概述RDD论文中文版 : http://spark.apachecn.org/paper/zh/spark-rdd.htmlRDD产生背景为了解决开发人员能在大规模的集群中以一种容错的方式进行内存计算,提出了 RDD 的概念,而当前的很多框架对迭代式算法场景与交互性数据挖掘场景的处理性能非常差, 这个是RDDs 的提出的动机。什么是 RD...原创 2018-09-27 09:14:46 · 26300 阅读 · 0 评论 -
Spark词频统计的三种方式
利用spark-shell来编程spark-shell --master spark://hadoop01:7077已经初始化好了SparkContext sc回顾wordcount的思路:读数据,切分并压平,组装,分组聚合, 排序当启动spark-shell启动以后 , 监控页面会监控到spark-shell当我们使用spark-shell以集群模式读取本地的数据的时...原创 2018-09-20 11:33:18 · 15204 阅读 · 0 评论 -
Spark集群各角色简介
常驻进程:Master 进程 Worker 进程Master : 常驻进程,守护进程。 管理worker,接收提交的任务,进行任务的分配调度。Worker : 常驻进程,守护进程。 报活;管理自己节点上的executor当我们提交 spark 任务的时候(spark-shell ,spark-submit)会生成了一个 Applications,默认会占用所有 Worker 的 co...原创 2018-09-25 16:19:55 · 2743 阅读 · 0 评论 -
spark提交任务以及资源分配问题
使用spark-submit命令提交Spark应用(注意参数的顺序)spark-submit --master spark://hadoop01:7077 --class cn.edu360.spark.WordCount sparkcore-1.0-SNAPSHOT.jar hdfs://hdp-01:9000/wordcount/input hdfs://hdp-01:9000/wordc...原创 2018-09-25 16:08:39 · 4872 阅读 · 1 评论 -
Spark提交任务的方式
提交任务的两个命令spark-submit 程序执行之后,application就会退出。spark-shell 会一直占有一个application,手动退出。 ctrl + c spark-shell 是一个交互式的命令行,主要用于测试。spark-shell脚本,实际上调用的是spark-submit脚本:spark-shell --master spark://h...原创 2018-09-19 11:15:42 · 3947 阅读 · 0 评论 -
Spark集群的搭建
首先介绍一下SparkSpark是一个针对大规模数据处理的快速通用引擎。Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、...原创 2018-09-18 22:26:20 · 761 阅读 · 0 评论 -
Spark精选面试题七(精华篇)
1、driver的功能是什么?1、一个Spark作业运行时包括一个Driver进程,也是作业的主进程,具有main函数,并且有SparkContext的实例,是程序的人口点;2、功能:负责向集群申请资源,向master注册信息,负责了作业的调度,,负责作业的解析、生成Stage并调度Task到Executor上。包括DAGScheduler,TaskScheduler。2、spark的...原创 2018-12-03 19:32:23 · 1119 阅读 · 0 评论