![](https://img-blog.csdnimg.cn/direct/971c0d7a240349f99d4d755ef253a900.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Spark
文章平均质量分 96
spark相关笔记
书忆江南
https://github.com/hackeryang
展开
-
Spark CallerContext源码分析与远程debug
最近为了治理集群中部分Spark任务造成的小文件过多,从而导致机器IO数和使用率过高的现象,看到社区中的issue:SPARK-16757,提到了Spark在yarn模式下启动Client、ApplicationMaster、Task等时,会通过反射调用注册Hadoop那边的CallerContext,从而在rm-audit.log中额外打印提交的Spark Client信息;并在hdfs-audit.log中除操作类型和涉及HDFS目录外,额外打印Spark类型、application号、stage号、t原创 2021-01-14 21:41:25 · 2937 阅读 · 0 评论 -
如何查看Spark日志与排查报错问题
一、各界面说明1.1、查看YARN页面的driver日志可以在右侧搜索框中填对应application号找到任务,然后点击对应的application号链接,如下图所示:这样会进入该application的信息界面,“FinalStatus”显示了该application的最后状态,点击下方的“logs”按钮也会进入到driver日志界面,如下图所示:对于driver日志而言,代码中的println()和show()等函数的输出,一般都在stdout里,大部分重要的报错信息都在s原创 2020-10-29 17:27:12 · 18521 阅读 · 12 评论 -
Spark常见报错与问题解决方法
1.org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow原因:kryo序列化缓存空间不足。解决方法:增加参数,--confspark.kryoserializer.buffer.max=2047m。2.org.elasticsearch.hadoop.rest.EsHadoopNoN...原创 2020-04-21 14:52:29 · 41920 阅读 · 6 评论 -
Spark高级分析与机器学习笔记
一、高级分析和机器学习概览1. 高级分析是指各种旨在发现数据规律,或根据数据做出预测和推荐等核心问题的技术。机器学习最佳的模型结构要根据要执行的任务制定,最常见的任务包括:(1)监督学习,包括分类和回归,其目标是根据数据项的各种特征预测每个数据项的标签。(2)推荐系统,根据行为向用户推荐产品。(3)无监督学习,包括聚类,异常检测,以及主题建模,其目的是发现数据中的结构。(4)图...原创 2020-04-20 10:45:40 · 4881 阅读 · 2 评论 -
Spark Structured Streaming笔记
一、流处理基础1. 流处理是连续处理新到来的数据以更新计算结果的行为。在流处理中输入数据是无边界的,没有预定的开始或结束。它是一系列到达流处理系统的事件(例如信用卡交易、点击网站动作,或从物联网IoT传感器读取的数据),用户应用程序对此事件流可以执行各种查询操作(例如跟踪每种事件类型的发生次数,或将这些事件按照某时间窗口聚合)。应用程序在运行时将输出多个版本的结果,或者在某外部系统(如HBas...原创 2020-03-31 17:39:36 · 1503 阅读 · 0 评论 -
Spark应用与调优笔记
一、Spark是如何在集群上运行的1. Spark的driver和executor并不是孤立存在的,cluster manager会将它们联系起来,集群管理器负责维护一组运行Spark application的机器。集群管理器也拥有自己的“driver”(即master节点,在yarn中是Resource Manager)和worker的抽象,核心区别在于集群管理器管理的是物理机器,而不是进程...原创 2020-03-24 19:27:20 · 1193 阅读 · 0 评论 -
Spark低级API笔记
一、RDD1. 在绝大部分场景下,用户都应该尽量使用DataFrame等结构化API,只有当这类高级API无法解决遇到的业务或工程问题的时候,才需要使用Spark的低级API,例如弹性分布式数据集(RDD)、SparkContext和分布式共享变量(例如累加器和广播变量)。下列三种场景,通常需使用到低级API:(1)当在高级API中找不到所需的功能时,例如要对集群中数据的物理放置进行非常严...原创 2020-03-20 10:07:29 · 620 阅读 · 0 评论 -
Spark结构化API—DataFrame,SQL和Dataset
一、结构化API概述1. 结构化API是处理各种数据类型的工具,可处理非结构化的日志文件、半结构化的CSV文件以及高度结构化的Parquet文件。结构化API指以下三种核心分布式集合类型的API:Dataset类型、DataFrame类型、SQL表和视图。大多数结构化API均适用于批处理和流处理,这意味着使用结构化API编写代码时,几乎不用改动代码就可以从批处理程序转换为流处理程序(反之亦...原创 2020-03-12 21:08:09 · 2662 阅读 · 2 评论 -
Spark概览笔记
一、Spark浅析1. Spark应用程序由一个driver进程和多个executor进程组成,driver进程运行main()函数,位于集群的一个节点上,它负责三件事:(1)维护Spark应用程序的相关信息;(2)回应用户的程序或输入,分析任务并分发给若干executor处理,它在整个应用程序生命周期中扮演着维护所有相关信息和聚合结果的作用。executor负责执行driver分...原创 2020-02-27 17:25:59 · 733 阅读 · 0 评论