![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 87
陈小哥cw
这个作者很懒,什么都没留下…
展开
-
【Spark源码】spark-submit和Spark-class
首先从启动脚本开始看:bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode cluster \./examples/jars/spark-examples_2.12-3.0.0.jar \10启动脚本调用的是spark-submit,所以直接看bin/spark-submit脚本,跟spark-shell一样,先检查是否设置了${SPARK_HOME},然后启动spa原创 2021-03-24 14:03:41 · 2945 阅读 · 0 评论 -
Spark中的闭包和闭包检测
文章目录一,闭包概念二,闭包检测一,闭包概念闭包是一个函数,返回值依赖于声明在函数外部的一个或多个变量闭包通常来讲可以简单的认为是可以访问一个函数里面局部变量的另外一个函数。函数在变量不处于其有效作用域时,还能够对变量进行访问,即为闭包;也就是说,变量超出了其作用域,还可以使用,就是闭包现象。闭包 = 代码 + 用到的非局部变量这里我们引入一个自由变量 factor,这个变量定义在函数外面。这样定义的函数变量 multiplier 成为一个"闭包",因为它引用到函数外面定义的变量,定义这个函原创 2021-03-12 16:51:45 · 1039 阅读 · 0 评论 -
Spark 序列化和kryo序列化器详解
建议看本文前先看看另外一篇文章Java序列化和反序列化介绍1.Java序列化含义Spark是基于JVM运行的进行,其序列化必然遵守Java的序列化规则。序列化就是指将一个对象转化为二进制的byte流(注意,不是bit流),然后以文件的方式进行保存或通过网络传输,等待被反序列化读取出来。序列化常被用于数据存取和通信过程中。对于java应用实现序列化一般方法:class实现序列化操作是让class 实现Serializable接口,但实现该接口不保证该class一定可以序列化,因为序列化必须.原创 2021-03-12 16:41:17 · 868 阅读 · 1 评论 -
spark实现wordcount的几种方式总结
方法一:map + reduceByKeypackage com.cw.bigdata.spark.wordcountimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * WordCount实现第一种方式:map + reduceByKey * * @author 陈小哥cw * @date 2020/7/9 9:59 */object WordCount1原创 2020-07-09 14:33:25 · 1132 阅读 · 0 评论 -
hadoop,hbase,hive,spark遇到无权限问题Permission denied: user=root, access=WRITE解决
在hadoop,hbase,hive执行某些命令时,可能遇到以下问题Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x这是因为root用户没有相应权限导致的解决方法有以下几种1.第一种解决方案在hdfs上/user目录下创建root目录,需要在HDFS上有一个用户主目录...原创 2019-12-10 17:09:24 · 1668 阅读 · 0 评论 -
spark算子集合
spark算子集合文章目录spark算子集合1.Transformation算子map/mapToPairmapPartitionsmapPartitionWithIndexflatMap/flatMapToPairfiltersamplereduceByKeysortByKey/sortByjoinleftOuterJoinrightOuterJoinfullOuterJoinunionint...原创 2019-08-02 20:42:18 · 459 阅读 · 0 评论 -
Spark RDD宽窄依赖
RDD和它依赖的父RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency)。1.窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用总结:窄依赖我们形象的比喻为独生子女父RDD和子RDD partition之间的关系是一对一的。父RDD和子RDD partition之间的关系是...原创 2019-09-02 08:41:03 · 405 阅读 · 0 评论 -
Spark面试题(持续更新)
一、RDD中reduceBykey与groupByKey哪个性能好,为什么?reduceByKey:reduceByKey会在结果发送至reducer之前会对每个mapper在本地进行merge,有点类似于在MapReduce中的combiner。这样做的好处在于,在map端进行一次reduce之后,数据量会大幅度减小,从而减小传输,保证reduce端能够更快的进行结果计算。groupByKe...原创 2019-09-18 12:00:22 · 731 阅读 · 0 评论