spark
patrick_wang_bigdata
这个作者很懒,什么都没留下…
展开
-
Spark --如何合理地设置executor-memory、executor-cores、num-executors
文章目录参数介绍以下4点建议需要牢记配置参数方法一:Tiny executors(One Executor per core)方法二:Fat executors (One Executor per node)方法三:Balance between Fat (vs) Tiny方法四:在方法三基础上每个executor不需要这么多内存参考网址参数介绍executor-memory 表示分配给每个e...原创 2020-03-15 21:05:56 · 12341 阅读 · 1 评论 -
Spark学习四:Spark架构设计和RDD的stage划分
文章目录架构设计Spark运行基本流程RDD之间的依赖关系stage的划分RDD运行过程参考网址架构设计学习完Spark学习二:spark基础理论知识,我们可以对Spark的一些组件和术语应该有了基本的认识,下面介绍Spark的架构设计。本节内容主要参考厦门大学林子雨老师的Spark课程。非常感谢林子雨老师!如下图所示。Spark运行架构包括集群资源管理器(Cluster Manager)...原创 2020-02-25 19:05:12 · 546 阅读 · 0 评论 -
Spark学习三:RDD介绍及编程
Overview(总览)Spark提供的主要抽象就是弹性分布式数据集 - - RDD(resilient distributed dataset),它是跨集群节点的分区元素的集合(RDD是有分区的),是可以并行操作的。RDD的创建有两种方式:(一)从Hadoop文件系统(或任何其他Hadoop支持的文件系统)的文件读取创建 (二)从driver program的已存在的scala集合中创建并转...原创 2020-02-25 18:15:02 · 1180 阅读 · 0 评论 -
Spark -- RDD两种算子:Transformation 和 Action
Transformation(1)map(func)通过对RDD中每个元素执行一个function然后返回新的RDD/** * Return a new RDD by applying a function to all elements of this RDD. */ def map[U: ClassTag](f: T => U): RDD[U]例如,将RDD中的...原创 2020-02-24 16:04:00 · 1364 阅读 · 0 评论 -
Spark学习二:spark基础理论知识
文章目录Spark生态系统Components (组件)Glossary(术语表)deploy mode中cluster和client的区别Spark和Hadoop作业之间的区别MapReduce的task进程模型和Spark的task的线程模型MapReduce的task多进程模型Spark的task的多线程模型优劣势对比参考网址Spark生态系统Spark Core:Spark Co...原创 2020-02-21 16:46:57 · 744 阅读 · 0 评论 -
Spark -- Monitoring(spark作业监控和测量)
Monitoring and Instrumentation (监控和测量)有几种方式去监控Spark applications,如web UIs、metrics及external instrumentation。Web Interfaces(web界面)原创 2020-02-20 23:19:14 · 1244 阅读 · 0 评论 -
Spark学习一:安装、IDEA编写代码
Spark下载和安装可以去Spark官网下载对应的spark版本。此处我选择了 spark-2.4.5-bin-hadoop2.6.tgz。注意该spark版本是2.4.5,与hadoop2.6相匹配,用的scala 2.11版本编译的spark源码。如果觉得官网比较慢,可以去中国科学技术大学镜像网站和清华大学镜像网站下载。将spark-2.4.5-bin-hadoop2.6.tgz上传到...原创 2020-02-20 19:37:23 · 538 阅读 · 0 评论