Spark
jsky_studio
IT人的微信自媒体--- 杰天空, 走在寻找创意的路上
发掘创意,点缀生活,品味人生。
展开
-
学习Spark第一天---1张图了解Spark
最近对Spark产生些兴趣,从今天开始踏上学习之路。大家别误解,我对雪佛兰的微型车不感兴趣,指的是大数据平台相关的Spark计算框架。小弟接触过hadoop和storm, 对Spark还是新手,还望路过的各位多多指点。2009年,UC Berkeley的AMP实验室创立了Spark项目。该项目是要创建类似Hadoop MapReduce的并行分布式计算框架,因此它继承MR的所有优点原创 2014-08-10 13:44:18 · 804 阅读 · 0 评论 -
Spark应用开发如何设定配置生效
在写Spark应用时,可以添加应用配置的地方有三个,今天总结下方便记忆:第一个地方,也是优先级最高的地方,是在应用程序代码里设定配置,示例如下:val conf = new SparkConf() .setAppName("myApp")val sc = new SparkContext(conf)第二个地方,是在提交应用时。因为有时候我们不想把原创 2016-02-19 22:45:07 · 2608 阅读 · 0 评论 -
Spark分布式计算执行模型
把Spark计算模型讲的通俗易懂,难得的好文章!为尊重原创,仅贴链接如下: Spark分布式计算执行模型转载 2016-02-05 21:42:53 · 672 阅读 · 0 评论 -
Spark通过YARN-client提交任务不成功
自己用的Spark-1.3.1, 通过YARN Client提交任务访问Kerberos认证的Hadoop集群。发现应用提交后始终出现如下循环提示:15/03/31 09:00:45 INFO yarn.Client: Application report for application_1427763283312_0001 (state: ACCEPTED)15/03/31 09:0原创 2015-07-23 23:19:35 · 13081 阅读 · 0 评论 -
Spark应用如何访问带Kerberos认证的CDH Hadoop集群
我用的是 Spark Standalone集群,当运行kinit命令导入证书,并把CDH Hadoop集群的配置文件放入spark/conf/目录后,提交应用发现还是无法访问CDH Hadoop。后来查了下官网资料,貌似Standalone模式的Spark集群不支持访问Kerberos认证的Hadoop,我们可以使用Yarn Client模式管理的的Spark集群。假设你的Hadoop集群原创 2015-07-15 23:09:35 · 9324 阅读 · 2 评论 -
如何应对SparkSQL DataFrame保存到hdfs时出现的过多小文件问题
原因就不解释了,总之是因为多线程并行往hdfs写造成的(因为每个DataFrame/RDD分成若干个Partition,这些partition可以被并行处理)。其结果就是一个存下来的文件,其实是hdfs中一个目录,在这个目录下才是众多partition对应的文件,最坏的情况是出现好多size为0的文件。如果确实想避免小文件,可以在save之前把DaraFrame的partition设为0:原创 2015-07-08 22:40:24 · 8827 阅读 · 0 评论 -
Scala编程语言中的下划线
本文转自知乎: Scala中的下划线到底有多少应用场景? 感谢原文作者。文中总结Scala中的下划线用法如下,欢迎高手指正: 1、作为“通配符”,类似Java中的*。如import scala.math._2、:_*作为一个整体,告诉编译器你希望将某个参数当作参数序列处理!例如val s = sum(1 to 5:_*)就是将1 to 5当作参数序列处理。转载 2015-01-07 21:15:28 · 1680 阅读 · 0 评论 -
Spark知识系统化整理分享
在学习和使用Spark的过程中,发现了这篇文章。感觉真不错,便于我们从宏观上了解Apache Spark的历史和现状。 为尊重原文作者,本文仅转载连接如下,建议Spark初学者必读: http://www.36dsj.com/archives/18204 (《为大数据处理点亮一盏明灯 Spark知识系统化整理分享》)转载 2015-04-11 09:46:21 · 575 阅读 · 0 评论 -
Spark集群资源调度
在学习和使用Spark过程中,简单了解下Spark如何在不同计算间分配资源,总的来说可以分为如下两个角度去分析(请路过高手指正):1> 每个Spark应用被分配到独立的进程(Executor)集上,Cluster Manager负责在不同的Spark应用间调度资源。2> 对于每个Spark应用的进程集内(一个SparkContext实例内),Spark通过 Fair Scheduler原创 2015-04-05 12:38:59 · 1425 阅读 · 0 评论 -
Spark 1.3.0源码编译及部署
1. Spark1.3.0安装版本要求: Spark 1.3.0 Java 6+ Python 2.6+ Scala 2.10.x2. 安装Maven至 /usr/local/maven-3.1.1 修改/etc/profile,添加: M2_HOME=/usr/local/maven-3.1.1 export M2_HOME原创 2015-03-28 22:10:34 · 1619 阅读 · 0 评论 -
spark streaming---使用gradle混合编译Scala和Java项目并打包
gradle和maven、ant相比,使用起来方便了好多。记下自己用过的build.gradle(类似maven的pom.xml)模版, 以及碰到并解决的一些小问题:*************************************************************************************************************原创 2016-02-25 22:16:37 · 3223 阅读 · 0 评论