![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 53
jxx4903049
这个作者很懒,什么都没留下…
展开
-
记一次数仓Spark任务报错Caused by: java.lang.OutOfMemoryError: unable to create new native thread
发现每次报错都是在cdh116,检查116机器资源问题,发现内存cpu磁盘IO均正常。后查询该机器上的句柄打开数量,发现是某个组件打开了太多的句柄未关闭。发现kafka-eagle占用1300万个句柄,重启之,解决。检查机器配置的句柄数,正常,网上很多。咨询运维同事物理机状况,结果正常。原创 2024-03-06 10:40:15 · 147 阅读 · 1 评论 -
spark xml 明确的指定schema
package com.vivo.study.xmlimport org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.catalyst.expressions.GenericRowWithSchemaimport org.apache.spark.sql.types._object ReadBooksXMLWithNestedArrayStruct { def main(args: Array[String]): Unit .原创 2020-06-01 11:30:37 · 523 阅读 · 0 评论 -
Spark mapPartitions、map、foreachPartition、foreach算子的区别、误区和正确用法
mapPartitions、map、foreachPartition、foreach的区别mapPartitions和map是transform算子,分别返回一个iterator迭代器和RDD。foreachPartition、foreach是action算子,无返回值。用于结果的输出操作mapPartitions、foreachPartition中定义的是一个RDD的每一个分区的统一处理逻辑...转载 2020-03-17 16:27:44 · 745 阅读 · 1 评论 -
spark 读取redis
package com.test.log.makefriendsimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import org.joda.time.{DateTime, DateTimeZone}import org.joda.time.format.DateTimeFo原创 2018-03-28 20:08:55 · 3459 阅读 · 0 评论 -
spark读取redis,连接池配置
package com.test.log.makefriendsimport redis.clients.jedis.{JedisPool, JedisPoolConfig}import scala.collection.mutable.ArrayBuffer/** * @Author: jxx * @Date: 2018/3/27 16:28 */object RedisU原创 2018-03-28 20:05:01 · 3126 阅读 · 1 评论 -
SparkTask未序列化(Tasknotserializable)问题分析
问题描述及原因分析在编写Spark程序中,由于在map等算子内部使用了外部定义的变量和函数,从而引发Task未序列化问题。然而,Spark算子在计算过程中使用外部变量在许多情形下确实在所难免,比如在filter算子根据外部指定的条件进行过滤,map根据相应的配置进行变换等。为了解决上述Task未序列化问题,这里对其进行了研究和总结。 出现“org.apache.spark.SparkExcept...转载 2018-03-28 09:20:39 · 296 阅读 · 0 评论 -
spark-submit命令
spark-submit命令//(集群模式)限制资源,资源不足时候会卡在分配资源(--total-executor-cores 和 --executor-cores为总数和单点cores数量)spark-submit --class test.Streamings --master spark://10.102.34.248:7077 --deploy-mode cluster -转载 2018-03-06 18:05:35 · 1677 阅读 · 0 评论 -
安装基于hadoop集群的高可用完全分布式的spark高可用集群
高可用集群规划:hadoop.xiaoxun.com.cn01 JournalNode QuorumPeerMain NameNode DFSZKFailoverController DataNode NodeManager Master Workerhadoop.xiaoxun.com.cn02 JournalNode Quor...原创 2018-03-07 14:30:45 · 553 阅读 · 1 评论 -
spark序列化异常和Executor的僵死问题
在Spark上执行hive语句的时候,出现类似于如下的异常:org.apache.spark.SparkDriverExecutionException: Execution error at org.apache.spark.scheduler.DAGScheduler.handleTaskCompletion(DAGScheduler.scala:849)原创 2018-01-29 18:57:16 · 1718 阅读 · 0 评论 -
spark 使用中Driver Executor 的默认jvm参数在yarn-client和yarn-cluster的区别
内存溢出问题 在Spark中使用hql方法执行hive语句时,由于其在查询过程中调用的是Hive的获取元数据信息、SQL解析,并且使用Cglib等进行序列化反序列化,中间可能产生较多的class文件,导致JVM中的持久代使用较多,如果配置不当,可能引起类似于如下的OOM问题:Exception in thread "Thread-2" java.lang.Ou原创 2018-01-29 18:55:20 · 1302 阅读 · 0 评论 -
Spark性能优化总结
近期优化了一个spark流量统计的程序,此程序跑5分钟小数据量日志不到5分钟,但相同的程序跑一天大数据量日志各种失败。经优化,使用160 vcores + 480G memory,一天的日志可在2.5小时内跑完,下面对一些优化的思路方法进行梳理。优化的目标保证大数据量下任务运行成功降低资源消耗提高计算性能三个目标优先级依次递减,首要解决的是程序能够跑通大数据量,转载 2018-01-29 17:56:46 · 232 阅读 · 0 评论 -
spark堆外内存的设置
MemoryOverhead是JVM进程中除Java堆以外占用的空间大小,包括方法区(永久代)、Java虚拟机栈、本地方法栈、JVM进程本身所用的内存、直接内存(Direct Memory)等。通过spark.yarn.executor.memoryOverhead设置,单位MB。相关源码:[java] view plain copy原创 2018-01-29 17:04:04 · 4484 阅读 · 0 评论 -
sbt-assembly自我认识
在Spark项目中经常涉及到外部依赖包的部署问题,比较简便的方式是将项目编译的class和依赖包打到一个jar包中,方便上传部署,scala项目使用sbt-assembly来将工程class和依赖打到一个jar包中,类似maven的assembly。参考sbt-assembly项目地址:https://github.com/sbt/sbt-assembly安装sbt-assem原创 2018-01-29 11:08:24 · 4844 阅读 · 0 评论 -
sbt-assembly解决jar包冲突 deduplicate: different file contents found in the following
sbt assembly 近期使用sbt战斗assembly发生故障时,包,在package什么时候,发生jar包冲突/文件冲突,两个相同class来自不同jar包classpath内心冲突。有关详细信息:我有一个self4j的jar, hadoop-common-hdfs的jar包。当中hadoop-common-hdfs.jar内包括了self4j这个jar包,导致冲突。转载 2018-01-26 14:23:10 · 623 阅读 · 0 评论 -
本地SBT assembly打包spark
SBT assembly打包spark程序:1.下载SBT ,下载地址:http://www.scala-sbt.org/download.html2.配置环境变量PATH, ;C:\Program Files (x86)\sbt\bin3.在C:\Users\当前用户\.sbt\0.13\目录下新建plugins文件夹,在其中创建plugins.sbt,加入以下代码原创 2018-01-25 16:29:56 · 1147 阅读 · 0 评论