spark
fanbest325
这个作者很懒,什么都没留下…
展开
-
spark submit参数及调优
spark submit参数及调优spark submit参数介绍你可以通过spark-submit --help或者spark-shell --help来查看这些参数。使用格式: ./bin/spark-submit \ --class \ --master \ --deploy-mode \ --conf = \ ...转载 2017-09-30 14:41:04 · 432 阅读 · 0 评论 -
Spark调优简单总结
Spark作为内存计算框架,需要做一些优化调整来减少内存占用,例如将RDD以序列化格式保存。总结为两大块:1,数据序列化;2,减少内存占用以及内存调优。数据序列化Spark着眼于便利性和性能的一个平衡,Spark主要提供了两个序列化库:Java Serialization:默认情况,Java序列化很灵活但性能较差,同时序列化后占用的字节数也较多。Kryo Seria转载 2017-09-30 15:15:04 · 334 阅读 · 0 评论 -
spark读写压缩文件API使用详解
最近研究了下Spark如何读写压缩格式的文件,主要有如下三种方式,这里以lzo方式压缩为例12345678910111213141516171819202122转载 2017-09-30 15:16:34 · 5510 阅读 · 0 评论 -
spark源码解析-启动流程
spark源码解析1-master启动流程1、在start-master.sh脚本中调用Mater.scala中的main方法2、在main方法中封装spark参数,并调用startRpcEnvAndEndpoint()创建RpcEnv3、在startRpcEnvAndEndpoint中创建RpcEnv(AkkaSystem),创建masterEndPoint(acto转载 2017-09-30 15:23:00 · 447 阅读 · 0 评论 -
Spark基础随笔:Spark1.6 Idea下远程调试的2种方法
使用的开发工具:scala2.10.4、Idea16、JDK8 对于电脑配置不错或和Spark集群在同一个网下的朋友,可以使用方法1;若不是请使用方法2方法1把自己的电脑作为Driver端,直接把jar包提交到集群,此时Spark的Master与Worker会一直和本机的Driver端保持连接,调试比较方便。[java] view p转载 2017-10-12 15:16:45 · 243 阅读 · 0 评论 -
Azkaban安装部署
在root的用户下搭建的• Azkaban安装部署(可参照:http://azkaban.github.io/azkaban/docs/latest/) 1):前提 安装JDK,安装Hadoop,Hive客户端环境2):前提 安装 git 的命令 :apt-get install git3):把github的azkaban源码下载命令:git clone转载 2017-11-23 10:04:40 · 811 阅读 · 0 评论