spark
文章平均质量分 74
T-Janey
数据工程师
展开
-
spark kryo序列化问题
背景在使用kryo序列化时,发现部分数据有记录丢失现象,借此做下记录,以防再次踩坑使用方式** 多个key 自聚合问题现象:有少量数据丢失** 多个DataSet聚合问题现象:有重复数据参数配置 SparkSession.builder(). appName(name). config("spark.speculation", value=true). config("spark.speculation.interval","...原创 2021-05-08 15:22:18 · 448 阅读 · 0 评论 -
本地提交Spark任务到yarn集群
一、本地环境配置配置本地环境前,先下载相关压缩包:[jdk1.8.0_74.tar.gz],[hadoop-3.1.2.tar.gz],[spark-2.3.1.tar.gz],然后根据本地环境选择mac或windows配置mac环境配置配置jdk1.8可参考https://jingyan.baidu.com/article/7f766daffd99354101e1d095.html配置hadoop3.0(1)下载并解压 hadoop-3.1.2.tar.gz(2)添加环境变量HADO原创 2020-10-12 17:56:59 · 877 阅读 · 0 评论 -
Idea提交任务到集群
cluster模式1、打jar包将程序编译打包2、idea参数配置找到debug配置信息:Run → Edit Configurations,如图所示:或者直接点击,如下图打开如下配置信息页1. 参数配置main classorg.apache.spark.deploy.SparkSubmitprogram arguments1)指定class2)指定jar包的位置如下所示--class com.talkingdata.dmp.etl.Test --name Spar原创 2020-10-12 17:33:29 · 302 阅读 · 0 评论 -
Spark on Yarn 自定义日志打印及级别
Spark on Yarn自定义日志输出及级别spark 自定义日志打印及级别日志打印定义spark 自定义日志打印及级别在处理spark任务的时候,我们需要经常查看日志,那么日志的级别对我们来说就很重要。但有时候,我们还需要输出一些业务日志,那它就会被spark的大量日志给覆盖掉,但调日志级别,又会使查找问题变的比较困难,今天,我们来解决下这个问题。日志打印定义我们首先需要日志配置文件,并在任务提交的脚本中设置成我们自定义的日志文件。这里将分别对两种日志进行配置对比,分别是java自带日志和spa原创 2020-09-16 15:19:27 · 3057 阅读 · 0 评论 -
序列化问题 - spark scala
在使用scala 时,给我们带来了很多便利,但同时,也有很多我们没注意到的坑。 我是从 Java 转过来的,所使用上多少会给两者做下比较,本文不做过多的比较,主要是为了记录下,在 spark 中使用 scala - Map - 序列化时遇到的一些坑。打包方式为 maven - fat jarmutable Map,序列化使用的对象,为应用程序(spark_yarn_cache_files)...原创 2019-06-20 16:28:49 · 1431 阅读 · 2 评论 -
Spark core 记录-persist原数据操作
Spark core 记录-persist原数据操作1、在同一个rdd上,做不同转换的操作时,并不会改变这个rdd上的值,也不会影响其他rdd上使用原数据的结果测试结果:2、`但是` 如果有persist或caches时,这个rdd的下游操作的是同一份原数据,并且后面的操作会受前面的影响测试结果:1、在同一个rdd上,做不同转换的操作时,并不会改变这个rdd上的值,也不会影响其他rdd上使用原数...原创 2019-03-14 15:20:14 · 300 阅读 · 0 评论 -
spark core 记录-persist对元数据的操作的影响
1、在同一个rdd上,做不同转换的操作时,并不会改变这个rdd上的值,也不会影响其他rdd上使用原数据的结果case class Name(var name: String, var age: Int, sex: Int)object DateTest { def main(args: Array[String]): Unit = { val conf = ne...原创 2018-11-14 17:25:30 · 221 阅读 · 0 评论 -
Spark-core-问题记录:join shuffle
1、partitionBy:当hashCode为负时,抛异常:java.lang.ArrayIndexOutOfBoundsException, at org.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter.write(BypassMergeSortShuffleWriter.java:151)2、rdd.part...原创 2018-07-03 17:54:58 · 873 阅读 · 0 评论 -
Spark 日志错误信息分析及解决方案:log4j、SLF4j
Spark 日志错误信息异常信息:(解决了好久的问题)1、log4j错误类「org.apache.log4j.Appender」被加载,「org.apache.log4j.ConsoleAppender」不能分配给「org.apache.log4j.Appender」,导致sparkContext初始化失败log4j:ERROR A "org.apache.log4j.ConsoleAppende...原创 2018-07-03 17:50:08 · 4166 阅读 · 1 评论 -
Lost executor 原因分析及解决方案-记录
Lost executornode丢失原因: 1、有时候是物理机导致的node暂时丢失,物理机恢复后 容器也自己恢复。如io过高 2、另一种就是物理机故障了 容器真丢了异常信息: 1、ERROR cluster.YarnScheduler: Lost executor 2、ERROR client.TransportClient: Failed to send RP...原创 2018-07-03 17:47:22 · 8405 阅读 · 1 评论 -
spark streaming 踩过的那些坑
系统背景spark streaming + Kafka高级API receiver 目前资源分配(现在系统比较稳定的资源分配),独立集群 --driver-memory 50G --executor-memory 8G --num-executors 11 --executor-cores 5广播变量1. 广播变量的初始化 1.1.executor...原创 2018-07-03 17:24:40 · 2392 阅读 · 0 评论 -
spark streaming基于Kafka的开发
spark streaming使用Kafka数据源进行数据处理,本文侧重讲述实践使用。一、基于receiver的方式在使用receiver的时候,如果receiver和partition分配不当,很容易造成数据倾斜,使个别executor工作繁重,拖累整体处理速度。receiver线程分配和partition的关系:假如topic A,分配了3个receiver,topic A有5个partiti...原创 2018-07-03 17:20:26 · 247 阅读 · 0 评论 -
Spark 静态内存管理
Spark 静态内存管理详解一、 内容简介 spark从1.6开始引入了动态内存管理模式,即执行内存和存储内存之间可以互相抢占。spark提供两种内存分配模式,即:静态内存管理和动态内存管理。该系列文章分别对这两种内存管理模式的优缺点以及设计原理进行了分析。该篇文章主要针对spark1.6静态内存管理进行了分析与说明。动态内存管理以及其他的调优文章后期会陆续...原创 2018-07-03 17:08:58 · 3538 阅读 · 0 评论 -
Spark 动态(统一)内存管理模型
一.回顾在前面的一篇文章中我们介绍了spark静态内存管理模式以及相关知识https://blog.csdn.net/anitinaj/article/details/80901328在上一篇文章末尾,我们陈述了传统spark静态内存管理模式的局限性:(1) 没有适用于所有应用的默认配置,通常需要开发人员针对不同的应用进行不同的参数配置。比如根据任务的执行逻辑,调整shuffle和stor...原创 2018-07-03 17:03:04 · 1565 阅读 · 0 评论 -
Spark在Executor上的内存分配
spark.serializer (default org.apache.spark.serializer.JavaSerializer ) 建议设置为 org.apache.spark.serializer.KryoSerializer,因为KryoSerializer比JavaSerializer快,但是有可能会有些Object会序列化失败,这个时候就需要显示的对序列化失败的类进行Kry...原创 2018-02-24 10:26:03 · 1169 阅读 · 0 评论 -
Apache Spark 内存管理详解
1. 堆内和堆外内存规划2 . 内存空间分配3. 存储内存管理4. 执行内存管理Apache Spark 内存管理详解转载 2017-07-28 17:10:59 · 399 阅读 · 0 评论