Spark
hunter127
这个作者很懒,什么都没留下…
展开
-
Spark性能调优
基本概念和原则首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起:每一台host上面可以并行N个worker,每一个worker下面可以并行M个executor,task们会被分配到executor上面去执行。Stage指的是一组并行运行的task,stage内部是不能出现shuffle的,因为shuffle的就像篱笆一样阻止了并行task的运行,遇到shuf转载 2016-04-13 11:02:34 · 1139 阅读 · 0 评论 -
Spark 运行方式
./bin/run-example org.apache.spark.examples.SparkPi或者:run-example SparkPi单机运行: spark-submit --class scala1.Test --executor-memory 2G --total-executor-cores 2 /disk2/data/app1.jar原创 2016-10-13 16:57:11 · 304 阅读 · 0 评论 -
CDH调优
在集群使用的时候发现一些内存溢出的异常,结合网上的说法这一下总结。1.CDH动态资源池默认采用DRF计划策略,也就是说:内存不够时,多余的cpu不会分配任务,cpu不够时,多余的内存也不会启动任务。• mapreduce.map.memory.mb ,map任务内存,cdh默认1G • mapreduce.map.cpu.vcores ,map任务虚拟CPU核数,cdh默认1原创 2016-12-20 13:41:58 · 1262 阅读 · 0 评论 -
Spark内存溢出
java.lang.OutOfMemoryError: Java heap Space内存不足,抛出OOM的Exception,主要有driver OOM和execcutor OOM两种1.driver OOM一般使用collect操作将所有的executor的数据聚合到driver导致,尽量不要使用collect操作2.execcutor OOM增加executor内存总量原创 2016-12-20 12:45:31 · 725 阅读 · 0 评论 -
Spark doBulkLoad数据进入hbase
踩了很多坑,终于把数据做成HFile文件。package com.hun.scalaimport java.text.SimpleDateFormatimport java.util.Dateimport org.apache.commons.codec.digest.DigestUtilsimport org.apache.hadoop.fs.Pathimpor原创 2016-10-18 15:00:23 · 3740 阅读 · 3 评论 -
Spark整合HBase、Spark 重启失败、
1.先整合Jar。复制HBase jar到Spark的lib/hbase下.。清单如下:guava-12.0.1.jar htrace-core-3.1.0-incubating.jar protobuf-java-2.5.0.jar 这三个jar加上以hbase开头所有jar。复制固定开头的文件:ls *.war| xargs -i cp {} /root原创 2016-10-15 12:43:11 · 476 阅读 · 0 评论 -
Spark RDD API详解(一) Map和Reduce
本文由cmd markdown编辑,原始链接:https://www.zybuluo.com/jewes/note/35032RDD是什么?RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此转载 2016-10-15 10:38:34 · 221 阅读 · 0 评论 -
RDD弹性分布式数据集(一)
1.自动容错2.只读,批量创建。3.一个RDD包含多个分区,RDD相互依赖如果RDD的每个分区最多只能被一个Child RDD的一个分区使用,则称之为narrow dependency;若多个Child RDD分区都可以依赖,则称之为wide dependency。不同的操作依据其特性,可能会产生不同的依赖。例如map操作会产生narrow dependency,而join操作则产原创 2016-03-25 21:41:54 · 584 阅读 · 0 评论 -
SparkStreaming 读取Kafka createDirectStreaming
import org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.streaming.kafka010._import org.apache.spark.streaming.k...原创 2018-03-15 22:58:38 · 1479 阅读 · 0 评论