spark
星辰学院
xingchenxueyuan.com
展开
-
spark学习系列——1 spark四大特性
什么是sparkApacheSpark™ is a fast and general engine for large-scale data processing.四大特性1、Speed 速度快2、Ease of Use 容易使用3、Generality 通用性4、Runs Everywhere 多种运行方式参考官网介绍http://spark.apache.org/...原创 2018-03-20 19:04:12 · 425 阅读 · 0 评论 -
spark精华面试题
1、driver的功能是什么?1)一个Spark作业运行时包括一个Driver进程,也是作业的主进程,具有main函数,并且有SparkContext的实例,是程序的人口点;2)功能:负责向集群申请资源,向master注册信息,负责了作业的调度,,负责作业的解析、生成Stage并调度Task到Executor上。包括DAGScheduler,TaskScheduler。2、spark的有几种部署模...转载 2018-05-16 19:41:31 · 1818 阅读 · 0 评论 -
spark-driver 集群与driver节点 Python版本 不一致报错
1、环境说明:driver节点使用Python3.5,集群使用Python2.7。2、出现报错Exception: Python in worker has different version 2.7 than that in driver 3.5, PySpark cannot run with different minor versions.Please check environment ...原创 2018-04-26 18:24:38 · 2073 阅读 · 0 评论 -
Hive SQL的编译过程
https://tech.meituan.com/hive-sql-to-mapreduce.html转载 2018-05-10 16:44:47 · 255 阅读 · 0 评论 -
Spark性能优化:资源调优篇
https://blog.csdn.net/u012102306/article/details/51637366转载 2018-04-24 16:14:47 · 132 阅读 · 0 评论 -
Spark性能优化:开发调优篇
spark调优分为几个方面:1、开发调优2、资源调优3、数据倾斜调优4、shuffle调优开发调优1、尽可能只读取一遍源数据2、进行持久化3、避免使用shuffle类算子例如,Broadcast与map进行join代码示例// 传统的join操作会导致shuffle操作。 // 因为两个RDD中,相同的key都需要通过网络拉取到一个节点上,由一个task进行join操作。 val rdd3 = r...转载 2018-04-24 15:53:35 · 256 阅读 · 0 评论 -
spark学习系列——11 spark shuffle 过程
https://www.csdn.net/article/2014-05-19/2819831-TDW-Shuffle/1https://www.jianshu.com/p/98a1d67bc226转载 2018-04-13 14:49:58 · 180 阅读 · 0 评论 -
spark-sql学习——官网文档
综述spark-sql 是spark生态圈中操作结构化数据的一个模块。开始计算scala> val df = spark.read.json("/test/people.json") df: org.apache.spark.sql.DataFrame = [age: bigint, name: string] scala> df.show() +--...原创 2018-04-20 14:55:03 · 447 阅读 · 0 评论 -
spark学习系列——10 spark宽依赖和窄依赖
如何表现RDD之间的依赖。在RDD中将依赖划分成了两种类型:窄依赖(narrow dependencies)和宽依赖(wide dependencies)。窄依赖是指父RDD的每个分区都只被子RDD的一个分区所使用。相应的,那么宽依赖就是指父RDD的分区被多个子RDD的分区所依赖。例如,map就是一种窄依赖,而join则会导致宽依赖(除非父RDD是hash-partitioned,见下图)。具体例...原创 2018-03-26 19:37:43 · 420 阅读 · 0 评论 -
spark学习系列——9 spark共享变量
默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享某个变量,那么这种方式是做不到的。Spark为此提供了两种共享变量,一种是Broadcast Variable(广播变量),另一种是Accumulator(累加变量)。Broadcast Variable会将使用到的变量,仅仅为每个...原创 2018-03-26 19:09:38 · 264 阅读 · 0 评论 -
spark学习系列——8 RDD持久化操作
1、概念RDD持久化将数据通过操作持久化(或缓存)在内存中是Spark的重要能力之一。当你缓存了一个RDD,每个节点都缓存了RDD的所有分区。这样就可以在内存中进行计算。这样可以使以后在RDD上的动作更快(通常可以提高10倍)。你可以对希望缓存的RDD通过使用persist或cache方法进行标记。它通过动作操作第一次在RDD上进行计算后,它就会被缓存在节点上的内存中。Spark的缓存具有容错性,...原创 2018-03-26 18:47:58 · 411 阅读 · 0 评论 -
spark学习系列——7 操作RDD
具体参见 http://spark.apache.org/docs/latest/rdd-programming-guide.html本篇博文主要针对各个算子进行实现,读者可以根据代码注释并参考上方链接进行学习。1、pom.xml文件<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache...原创 2018-03-21 20:04:32 · 259 阅读 · 0 评论 -
spark学习系列——6 Historyserver配置
1、说明sparkUI 只有在作业执行中才能从yarn界面看到状态,作业执行结束之后想要查看历史数据就必须配置Historyserver。2、配置方法如果spark记录下了一个作业生命周期内的所有事件,那么就会在该作业执行完成之后,我们进入其web ui时,自动用记录的数据重新绘制作业的web ui。有3个属性我们可以设置spark-defaults.confspark.eventLog.enab...原创 2018-03-20 19:47:23 · 797 阅读 · 1 评论 -
spark学习系列——5 spark submit
详细请参见:http://spark.apache.org/docs/latest/submitting-applications.html1、提交样板./bin/spark-submit \ --class <main-class> \ --master <master-url> \ --deploy-mode <deploy-mode> \ ...原创 2018-03-20 19:44:10 · 389 阅读 · 0 评论 -
spark学习系列——4 spark standalone模式图解
此方式仅仅作为对于spark架构的了解,国内实际生产环境会使用yarn作为资源调度器。原创 2018-03-20 19:35:51 · 349 阅读 · 0 评论 -
spark学习系列——3 rdd介绍
1、RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被并行操作。(分布式数据集)3、RDD通常通过Hadoop上的文件,即HDFS文件或者Hive表,来进行创建;有时也可以通过应用程序中的集...原创 2018-03-20 19:31:09 · 280 阅读 · 0 评论 -
spark学习系列——2 WordCount
经典的例子首先上传文件到hdfs,再启动spark-shell,进行计算[bdpos@BJHC-Client-18562 spark]$ hdfs dfs -mkdir /spark/input [bdpos@BJHC-Client-18562 spark]$ hdfs dfs -put ./README.md /spark/input [bdpos@BJHC-Client-18562 spark...原创 2018-03-20 19:26:39 · 570 阅读 · 0 评论 -
spark面试题一
1.Spark master使用zookeeper进行HA的,有哪些元数据保存在Zookeeper?偏向于运维,暂不作讨论。2.Spark master HA 主从切换过程不会影响集群已有的作业运行,为什么?3.Spark on Mesos中,什么是的粗粒度分配,什么是细粒度分配,各自的优点和缺点是什么?4.如何配置spark master的HA?5.Apache Spark有哪些常见的稳定版本,...转载 2018-05-16 19:42:15 · 522 阅读 · 0 评论