Spark
文章平均质量分 55
失散Lost
这个作者很懒,什么都没留下…
展开
-
使用log4j将spark on yarn任务的日志发送到kafka
1.将spark streaming以yarn cluster运行后,查看日志是一件比较麻烦的事情。需要停止任务,再用yarn log命令收集。而这无疑违背了实时程序7-24运行的原则。2.在我搜索解决方法时,发现可以使用kafka-log4j-appender将日志发送到kafka的主题在maven引入依赖 <dependency> <groupId>org.apache.kafka</groupId>原创 2021-03-04 14:50:38 · 519 阅读 · 2 评论 -
win10使用idea阅读spark源码准备
win10使用idea阅读spark源码准备环境win10 + idea2019.3(scala 2.11.12插件) + maven3.6.0 + spark2.3.21.首先下载源码参考:https://blog.csdn.net/u011464774/article/details/76704785(????)官网下载地址http://spark.apache.org/downloads.html但是那个选择版本和type的下拉箭头,点不动,可能是浏览器适配的问题?????备用下载原创 2020-11-24 11:41:37 · 552 阅读 · 0 评论 -
spark streaming提交yarn运行不成功的记录
spark streaming和kafka搭配使用的时候,往往会因为kafka topic有问题而启动不成功我遇到过的表现有:1.yarn页面不提示异常,看日志log报错20/07/23 14:58:46 ERROR yarn.ApplicationMaster: RECEIVED SIGNAL TERM20/07/23 14:58:46 INFO spark.SparkContext: Invoking stop() from shutdown hook20/07/23 14:58:46 INF原创 2020-07-28 11:28:28 · 2290 阅读 · 0 评论 -
spark streaming中updateStateByKey算子的使用介绍
前言在streaming中可以分为有状态运算和无状态运算无状态运算就是每个批次间都彼此隔离,每次都从空开始有状态运算为批次之间提供了管道,管道中保存的信息就是历史状态常见的有状态算子包括updateStateByKey,mapWithState,窗口函数其中updateStateByKey和mapWithState是比较相似的,区别在于无论本批次内有没有key对应的数据,updateStateByKey都会执行一遍运算逻辑,而mapWithState则不会被触发。下面看一下updateState原创 2020-06-29 10:54:42 · 292 阅读 · 0 评论 -
尝试spark streaming的有状态转化: updateStateByKey和mapWithState
spark streaming有状态转化updateStateByKey示例mapWithState示例原创 2020-05-27 17:59:56 · 225 阅读 · 0 评论 -
Spark性能优化指南——高级篇(转载)
数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。这种情况很常见。原本能够正常执行的Spark作业,某天突然报出OOM(内存溢出)异常,观察异常栈,转载 2020-05-12 13:49:31 · 155 阅读 · 0 评论 -
Spark性能优化指南——基础篇(转载)
前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更快、性能更高。然而,通过Spark开发出高性能的大数据计算作业,并不是那么简单的。如果没有对Spark作业进行合转载 2020-05-12 13:44:00 · 155 阅读 · 0 评论 -
总结map和mapPartitions、foreach和foreachPartition、map和flatMap的区别
版本:spark-2.2.0 && scala-2.11.8map和mapPartitions的区别map是对每一个元素进行操作,mapPartitions是对一个分区?map源码 /** * Return a new RDD by applying a function to all elements of this RDD. */ def map[U:...原创 2019-11-04 20:44:37 · 432 阅读 · 0 评论