![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 72
SummerMangoZz
菲fans
展开
-
spark on yarn:Container is running beyond physical memory limits
在虚拟机中安装好hadoop和spark后。执行start-all.sh(hadoop命令)来开启hdfs和yarn服务。服务开启成功后,为了测试spark on yarn的可执行性,输入命令: ./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client ./exa原创 2017-05-11 17:00:55 · 2977 阅读 · 0 评论 -
Rdd,DataFrame和DataSet的区别
这三个都是分布式数据集。但有一点不同,Rdd可以存放用户自定义的数据对象,DataFrame只能存放Row类型的数据和一些Schema信息,而DataSet既可以存放用户自定义的 数据类型,又可以存放一些该数据类型的Schema信息。可以说,DataSet结合了Rdd和DataFrame的优点。 Rdd提供了强大的算子操作,但是对于一些结构化数据类型的信息查询并不方便,比如如果我们要查原创 2017-05-16 21:33:03 · 764 阅读 · 0 评论 -
spark调度流程源码剖析
Spark作为一个优秀的分布式集群内存计算框架,提供了简单接口和丰富的rdd算子供开发者调用。spark的运行速度之所以如此之快,一方面是因为它基于内存,另一方面是因为它对job,state,task的划分并根据算子的shuffle过程将同一端的多个算子操作直接执行一条pipeline,减少了不必要的中间过程的存储消耗。根据官网的spark调度流程,我们看到如下图: 这张图非常简洁,大概原创 2017-06-05 15:28:59 · 410 阅读 · 0 评论 -
Spark Client和Cluster两种运行模式的工作流程
1.client mode: In client mode, the driver is launched in the same process as the client that submits the application..也就是说在Client模式下,Driver进程会在当前客户端启动,客户端进程一直存在直到应用程序运行结束。 该模式下的工作流程图主要如下: 工作流程原创 2017-05-22 16:28:00 · 8869 阅读 · 0 评论