Spark
小鹅鹅
兴趣使然
展开
-
Spark中RDD 持久化操作 cache与persist区别
环境/背景Spark 2.3.0 Scala 2.11 Java 1.8在进行RDD操作的时候,我们需要在接下来多个行动中重用同一个RDD,这个时候我们就可以将RDD缓存起来,可以很大程度的节省计算和程序运行时间。接下来可以通过查看Spark的源码对比RDD.cache()与RDD.persist()的差别。cache 与 persist 对比首先从JavaRDD类中点进去...原创 2018-07-02 15:33:13 · 4142 阅读 · 0 评论 -
Spark 与 Hadoop 学习笔记 介绍及对比
这篇博客将会简单记录Hadoop与Spark对比,及HDFS,MapReduce的基本概念,方便理解整个大数据处理框架。1. Hadoop1.1 背景Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。 HDFS: 分布式文件存储 YARN: 分布式资源管理 MapReduce: 分布式计算 Others:...原创 2018-08-05 21:20:46 · 509 阅读 · 3 评论 -
Databrick 's Blog on Spark Structured Streaming Summary
此篇博客将翻译及总结Databrick三篇关于 Spark Structured Streaming的文章,原文可点击小标题蓝字Part1 实时数据使用Structured Streaming的ETL操作1.1 Introduction在大数据时代中我们迫切需要实时应用解决源源不断涌入的数据,然而建立这么一个应用需要解决多个问题: 1. 提供端到端的可靠性与正确性 2....原创 2018-08-28 14:42:37 · 1805 阅读 · 0 评论 -
Spark Structured Streaming + Kafka使用笔记
这篇博客将会记录Structured Streaming + Kafka的一些基本使用(Java 版)spark 2.3.01. 概述Structured Streaming (结构化流)是一种基于 Spark SQL 引擎构建的可扩展且容错的 stream processing engine (流处理引擎)。可以使用Dataset/DataFrame API 来表示 streaming a...原创 2018-09-30 20:57:08 · 14144 阅读 · 6 评论 -
Spark RDD / Dataset 相关操作及对比汇总笔记
本篇博客将会汇总记录大部分的Spark RDD / Dataset的常用操作以及一些容易混淆的操作对比。0. 基本概念首先介绍一下基本概念,详情可以参考之前的博客:Spark 与 Hadoop 学习笔记 介绍及对比Databrick 's Blog on Spark Structured Streaming SummarySpark Structured Streaming + Kaf...原创 2018-10-25 16:09:19 · 1305 阅读 · 2 评论 -
Spark 基本概念及 jobs stages tasks 等 解释
基础概念理解Application用户在 spark 上构建的程序,包含了 driver 程序以及在集群上运行的程序代码,物理机器上涉及了 driver,master,worker 三个节点.Driver Program创建 sc ,定义 udf 函数,定义一个 spark 应用程序所需要的三大步骤的逻辑:加载数据集,处理数据,结果展示。Cluster Manager集群的...原创 2018-11-05 19:54:07 · 2230 阅读 · 0 评论 -
Spark Streaming(DStreaming) VS Spark Structured Streaming 区别比较 优劣势
Spark Streaming(DStreaming) VS Spark Structured Streaming 区别比较 优劣势背景这篇博客主要记录Spark Streaming(DStreaming) 与 Spark Structured Streaming 之间的差别与优劣势。Apache Spark 在 2016 年的时候启动了 Structured Streaming 项目,一个...原创 2019-03-07 21:04:46 · 6950 阅读 · 0 评论 -
Spark Structrued Streaming 及 DStreaming 调优笔记
背景项目中用的是Spark Structrued Streaming ,也就是Spark 2.0的新版Streaming,看官方文档也说过性能及实时性会比之前的Dstreaming好点,但是相关的资料相比Dstreaming实在是少很多,现在调优阶段很多都要参考Dstreaming的文章以及经验。这里整理一个Structured Streaming和DStreaming通用的不同方向、思路的调...原创 2019-05-19 16:43:38 · 2149 阅读 · 0 评论 -
Spark 查看某个正在执行的或已结束的任务中executor与driver日志
1. 在web界面上查看任务正在运行如果运行在 YARN 模式,可以在 ResourceManager 节点的 WEB UI 页面根据 任务状态、用户名 或者 applicationId Search 到应用。点击表格中 Tracking UI 列的History 链接;点击相关的 ApplicationId 链接,进入到详情页面点击上面的 Tracking URL: History 链...原创 2019-07-26 15:28:44 · 14752 阅读 · 0 评论