spark
withme9919
这个作者很懒,什么都没留下…
展开
-
spark StackOverflow报错
今天用mllib中的FPGrowth算法跑程序,过程中报错StackOverflow,通过设置spark.executor.extraJavaOptions适当增大永久代内存spark.executor.extraJavaOptions=-Xss4096k。在查询问题的过程中看见了一篇spark的性能调优的文章,很好,mark一下https://blog.csdn.net/ainidong2005...原创 2018-04-10 14:48:20 · 1178 阅读 · 0 评论 -
spark 数据倾斜
最近的程序在执行的时候发现数据倾斜的比较厉害,有的task执行的很快,但有些task及其慢,找了一些解决数据倾斜的办法,觉得这篇文章写得特别好,原文地址:https://zhuanlan.zhihu.com/p/21483985,mark一下,方便日后复习。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就...转载 2018-04-25 13:34:30 · 192 阅读 · 0 评论 -
scala中的“《:”
原文地址:https://blog.csdn.net/i6448038/article/details/52061287在看源码的时候出现了“<:” 符号,不知道怎么用,原文总结的很好, mark一下”<:”符号我们定义一个类:“Earth”class Earth { def sound(){ println("hello !") } }我们定义了一个子类:“Anima...转载 2018-05-14 20:07:01 · 3481 阅读 · 3 评论 -
Spark中Task,Partition等关键概念
先盗一个图输入多个hdfs文件,每个文件有多个block,当spark读取多个文件时,将多个block合并为一个输入分片(InputS)转载 2018-05-26 13:45:01 · 3024 阅读 · 0 评论 -
Spark RDD Persistence
http://www.cnblogs.com/yurunmiao/p/4966393.htmlSpark最为重要的特性之一就是可以在多个操作(Action)之间,将一个或多个RDD关联的数据集(Dataset)以分区(Partition)为单位进行持久化(Persist)或缓存(Cache),存储介质通常是内存(Memory)。 被持久化或缓存的RDD A可以在两种情况下被很好地“重复”利用: (...转载 2018-05-23 16:33:01 · 184 阅读 · 0 评论 -
mapPartitions
转自:http://wanshi.iteye.com/blog/2183906rdd的mapPartitions是map的一个变种,它们都可进行分区的并行处理。两者的主要区别是调用的粒度不一样:map的输入变换函数是应用于RDD中每个元素,而mapPartitions的输入函数是应用于每个分区。假设一个rdd有10个元素,分成3个分区。如果使用map方法,map中的输入函数会被调用10次;而使用m...转载 2018-06-14 11:22:44 · 2424 阅读 · 0 评论 -
spark1.6的内存管理
对spark中的spark.memory.storageFraction和spark.memory.fraction不理解,网上找了,自己画张图,原文地址:https://www.cnblogs.com/dreamfly2016/p/5720526.html转载 2018-06-15 11:09:58 · 291 阅读 · 0 评论 -
spark读hive表几个关键的配置
spark1.6.0, hive1.1.0pom文件添加<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.10</artifactId> <version>1.6.0</version>原创 2018-06-27 10:18:22 · 708 阅读 · 0 评论