spark
hery_csnd168
hadoop工程师
展开
-
第58课:使用Java和Scala在IDE中开发DataFrame实战学习笔记
本期内容:1. 使用Java开发DataFrame实战2. 使用Scala开发DataFrame实战 自Spark1.3开始大多数SparkSQL都基于DataFrame编程。因为DataFrame高效且功能强大。可以把SparkSQl作为一个分布式查询引擎。SparkSQL一般都和Hive一起使用。使用Java开发Spark应用程序的原因:转载 2016-06-03 09:23:10 · 592 阅读 · 0 评论 -
Spark架构综述
用户程序从最开始的提交到最终的计算执行, 需要经历以下几个阶段:1) 用户程序创建SparkContext时, 新创建的SparkContext实例会连接到Cluster Manager。 Cluster Manager会根据用户提交时设置的CPU和内存等信息为本次提交分配计算资源, 启动Executor。2) Driver会将用户程序划分为不同的执行阶段, 每个执行阶段由一组完全相同的Task组...原创 2017-04-06 18:00:33 · 604 阅读 · 0 评论 -
RDD实现详解
RDD是Spark最基本也是最根本的数据抽象, 它具备像MapReduce等数据流模型的容错性, 并且允许开发人员在大型集群上执行基于内存的计算。 现有的数据流系统对两种应用的处理并不高效: 一是迭代式算法, 这在图应用和机器学习领域很常见; 二是交互式数据挖掘工具。 这两种情况下, 将数据保存在内存中能够极大地提高性能。 为了有效地实现容错, RDD提供了一种高度受限的共享内存, 即原创 2017-04-06 18:25:48 · 1829 阅读 · 0 评论 -
Apache Spark 内存管理详解
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuff...转载 2020-04-03 21:28:04 · 97 阅读 · 0 评论 -
Spark算子使用示例
1. 算子分类从大方向来说,Spark 算子大致可以分为以下两类Transformation:操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。Action:会触发 Spark 提交作业(Job),并将数据输出 Spark系统。从小方向来说,Spark 算子大致可以分为以下三类:Value数据类型的Tran...转载 2018-04-17 15:55:52 · 335 阅读 · 0 评论