![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 54
TheTrulyAtom
这个作者很懒,什么都没留下…
展开
-
Caused by: org.apache.kafka.common.KafkaException: Failed to construct kafka consumer
遇到的问题kafka使用kerberos安全认证后,我这边的消费程序需要修改。原本如果是普通的消费程序,加两行代码就行了: System.setProperty("java.security.auth.login.config", kafkaJaasPath); System.setProperty("java.security.krb5.conf", krb5Path);但是我的程序是用spark streaming框架写的。原本在我的idea上跑local跑的好好的,结果一上到spark st原创 2021-11-03 10:37:31 · 7585 阅读 · 0 评论 -
spark日志清理
1.背景这里介绍的日志清理是standlone模式下的,其它的我没有研究过。提交到spark的程序,worker会启动有多个executor,在${SPARK_HOME}/work下,可以看到有很多app-*文件夹,这些文件夹放的是程序运行时的日志、jar包等。如果不清理的话,这些文件夹肯定是越来越多的,时间长了也会占用较多的磁盘空间。下2.清理方法2.1清理运行完成后的文件夹修改${SPARK_HOME}/conf/目录下的spark-env.sh。vim ${SPARK_HOME}/conf原创 2021-07-02 16:06:59 · 1225 阅读 · 0 评论 -
java.lang.IllegalArgumentException at org.apache.xbean.asm5.ClassReader.<init>(Unknown Source)...
最近想将eclipse上的项目迁移到idea。在eclipse上跑的好好的项目,但是在idea上报了下面的错:[INFO ] 2020-09-10 15:10:10,410 [JobGenerator] org.apache.spark.internal.Logging$class.logInfo(Logging.scala:54): Added jobs for time 1599721810000 ms [INFO ] 2020-09-10 15:10:10,420 [JobScheduler]原创 2020-09-10 15:44:53 · 681 阅读 · 0 评论 -
使用spark.streaming.kafka.consumer.poll.ms和reconnect.backoff.ms解决spark streaming消费kafka时任务不稳定的问题
问题描述在用spark streaming程序消费kafka的数据时,遇到了一个神奇的现象:同样的数据量、相似的数据,在消费时,有些批次的数据在做map操作时神奇的多了40多秒,具体看下面的数据:在map操作时,有些是几秒,有些稳稳的是41s!如果是偶然出现还好,但是,大部分的作业都是在map时花了刚好41s。这就很神奇了。1.map:2s 2.map:41s 3.map:0.8s 4.map:41s 5.map:41s 解决过程1.一开始,怀疑是executor的问题。因为我的ex原创 2020-07-06 09:10:27 · 4255 阅读 · 0 评论 -
SparkStreaming的backpressure的使用
之前在使用spark streaming消费kafka数据时,为了防止每次从kafka获取的数据过多,设置了spark.streaming.kafka.maxRatePerPartition的大小,这样每次从kafka获取到的最大数据就可以为“topic个数*kafka每个topic分区个数*maxRatePerPartition”。这样似乎可以防止spark一次性读入的数据太多。然鹅,带来了一些...原创 2020-03-13 15:23:28 · 647 阅读 · 0 评论 -
Could not initialize class org.xerial.snappy.Snappy解决方法
最近在用spark消费kafka数据时,在集群上跑着跑着程序就挂掉了。报的错误是Could not initialize class org.xerial.snappy.Snappy在网上查了下,报错的原因是snappy将.so文件解压到了/tmp目录下,如果/tmp目录因为种种原因撑爆了,那就gg了。This is generally caused by by snappy librar...原创 2020-01-15 09:36:50 · 4555 阅读 · 0 评论