![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 57
kequanjade
这个作者很懒,什么都没留下…
展开
-
Spark任务卡死
spark阶段parkcore standalone /yarn 模式运行的时候 client 模式正常运行, cluster 模式卡死spark-env.sh 里的配置 SPARK_MASTER_PORT=7077SPARK_MASTER_WEBUI_PORT=8080SPARK_WORKER_CORES=2SPARK_WORKER_MEMORY=1G #开辟原创 2017-06-17 14:27:30 · 7365 阅读 · 1 评论 -
spark 历史和实时任务日志监控
一.spark on yarn historyserver(运行完毕日志) 1.配置yarn日志参数:yarn-site.xml yarn.log-aggregation-enable true yarn.log.server.url http://hadoop-senior01.ibeifeng.com:1988原创 2018-02-01 16:26:47 · 3043 阅读 · 0 评论 -
kafka 的 ClosedChannelException
场景: kafka 版本kafka_2.10-0.8.1.1 ,spark任务刚开始正常运行,一段时间后,报下面的错误,但是数据准确性不影响,只是严重拖慢了实时任务 [Stage 46825:=========================================> (3 + 1) / 4]17/11/04 23:14:23 WARN原创 2017-12-13 11:29:52 · 2480 阅读 · 0 评论 -
spark遇到的死锁
一.死锁数据库基础知识: http://blog.csdn.net/luyaran/article/details/53502917 死锁: 是指两个或两个以上的进程在执行过程中,因争夺资源而造成的一种互相等待的现象,若无外力作用,它们都分配不到必需的资源因而无法继续运行.此时称系统处于死锁状态或系统产生了死锁,这些永远在互相等待的进程称为死锁进程. 错误: Caused原创 2017-06-07 17:25:39 · 2443 阅读 · 0 评论 -
kafka添加 partion导致 spark 实时任务数据减少
场景: kafka原有两个分区,添加一个分区后,一直运行的实时的spark任务 数据减少约3分之一 分析: spark 将kafka 的offsite维护在checkpoint 里面,当spark任务运行的时候,给kafka添加新的分区,原来的checkpoint只维护原来的两个分区的 offsite,新的分区的offsite 无法维护(checkpoint 只在第一次创建的时候,创建新原创 2017-09-14 11:58:35 · 496 阅读 · 0 评论 -
windows运行 HiveContext 报错
Caused by: java.lang.NullPointerExceptionat java.lang.ProcessBuilder.start(ProcessBuilder.java:1010)at org.apache.hadoop.util.Shell.runCommand(Shell.java:482)at org.apache.hadoop.util.Shel原创 2017-06-17 14:25:59 · 1111 阅读 · 0 评论 -
Rdd的 foreach 和 foreachPartition
一.代码 package com.xiaopeng.test import java.sql.Connection import com.xiaopeng.bi.utils.{JdbcUtil, SparkUtils}import org.apache.spark.broadcast.Broadcastimport org.apache.spar原创 2017-08-03 18:59:24 · 5292 阅读 · 0 评论 -
DataFrame和 Rdd
一.DataFrame 和Rdd 相互转换关系1.df 转化为rdd val df: DataFrame = hiveContext.sql("select * from game_sdk") df.foreachPartition(rdd => { rdd.foreach(row => { val a: Row = row;原创 2017-08-03 17:29:26 · 752 阅读 · 0 评论 -
Spark内存溢出
一.场景:在实时任务 注册和激活相关的任务 GamePublishKpi 中,程序运行一段时间,就会报内存溢出 二.分析方法 ps -ef | grep GamePublishKpi 找出运行的程序 jmap -heap 27075(进程号) 查看该程序的运行过程中内存的使用情况该命令对应的参数解读: http://blog.csdn.net/yrpting/原创 2017-08-02 16:43:55 · 1818 阅读 · 0 评论 -
spark性能调优--jvm调优
一.问题切入调用spark 程序的时候,在获取数据库连接的时候总是报 内存溢出 错误(在ideal上运行的时候设置jvm参数 -Xms512m -Xmx1024m -XX:PermSize=512m -XX:MaxPermSize=1024M,不会报错) 二.jvm参数 和 saprk 参数 和内存四区 解读 1.内存四区 1、栈区(stack):由编译器自动分配释放原创 2017-05-22 20:10:00 · 884 阅读 · 1 评论 -
spark的checkpoint
==========================================================================================================一.checkpoint 原理http://spark.apache.org/docs/1.6.1/streaming-programming-guide.html#transfo原创 2017-06-07 15:30:01 · 892 阅读 · 0 评论 -
spark序列化溢出
序列化缓存溢出Causedby:org.apache.spark.SparkException:Kryo序列化失败:缓冲区溢出。可用:0,必需:21.要避免此情况,请增加spark.kryoserializer.buffer.maxCaused by:org.apache.spark.SparkException: Kryo serialization failed: Buffer ove原创 2017-06-17 14:21:55 · 4134 阅读 · 0 评论 -
spark程序运行缓慢
spark程序运行缓慢原因一:在map ,reducebykey ,transform 等算子里进行耗时操作耗时操作包括: 读取配置文件,打印,读取数据库的数据 对象 boolean local =ConfigurationManager.getBoolean(Constants.SPARK_LOCAL); 总结:在spark的算子中,只能执行对数据的处理逻辑,其间不要加载原创 2017-06-17 14:25:26 · 1875 阅读 · 0 评论 -
Spark集成 hadoop,hbase 的 maven冲突
Spark和Hadoop、HBase集成,使用Maven管理依赖的时候需要考虑包的兼容性:报错:java.lang.SecurityException: class "javax.servlet.FilterRegistration"'s signer information does notmatch signer information of other classes in the sa原创 2017-06-17 14:26:34 · 1718 阅读 · 0 评论 -
hadoop小文件过多引起的负载过高
一.场景描述系统运行一段时间后,总是报负载过高的警告告警等级: Warning告警信息: Processor load is too high on hadoopmaster告警项目: system.cpu.load[all,avg1]问题详情: Processor load (1 min average per core) 4.43原创 2018-02-07 11:51:40 · 1862 阅读 · 0 评论