朱继业1993-CSDN博客

原创本地提交spark任务至yarn

关于本地提交spark任务至yarn，之前一直采用的是本地安装hadoop、spark等环境后通过相关API 提交任务。此种方法的不足：本地需要安装hadoop、spark环境，对于新手来说非常痛苦，非常容易出现各种问题，如本地配置文件版本过多导致任务受影响等。每个人提交任务的user都是自己电脑的user，容易出现各种问题，如hdfs、hive相关的权限问题相关的api提交...

2019-07-17 15:45:23 1496

原创 sparkstreaming消费kafka如何保证输出结果只会产生一次？（事务性）

最近开始使用sparkstreaming+kafka0.10，使用过程中碰到问题： steaming采用的direct方式，(这种方式和receiver方式的对比性能会好很多)，spark计算完数据之后有一个结果入库操作，现在问题来了，采用自动提交的时候程序二次启动经常会出现重复消费的情况，并且怎么保证这个结果只生产一次呢？首先介绍一下sparkstreaming内部是怎么做到消息只计算一...

2018-07-05 17:54:01 4490 4

原创使用sparksubmit提交application时始终找不到三方jar 提升class not found

spark2.1.0 hadoop 2.6.0(ambari)spark中使用了三方jar并且运行模式为yarn时，执行如下命令：./spark-submit --master yarn --deploy-mode cluster --driver-memory 1g --executor-memory 3g --executor-cores 1 --class com.test.Test /tm...

2018-06-26 12:50:45 4396 3

原创 kafka0.10版本spark只能读到一个分区的数据，错误Beginning offset xxx is the same as ending offset

sparkstreaming 2.1.0 kafka 0.10.1.1 topic三个partition相关配置代码：val kafkaParam = Map[String,Object]( "key.deserializer"->classOf[StringDeserializer] ,"value.deserializer"->classOf[StringDeserial...

2018-06-26 12:39:57 2057 1

原创关于Spark处理double类型数据时的一个小优化

在探索spark优化的过程中，百度出来的千篇一律无非都是一些配置的修改，其实代码的优化是一个非常关键，甚至可以起决定性作用的步骤。最近根据自己的项目内容完成了一个基于spark的分块矩阵求逆，需要求一个20000*20000矩阵的逆。单机的工具如jama 求出来得按小时计。由于公司集群硬件条件有限，在处理时一直存在着内存溢出和计算耗时过长的问题。。。。在不停的优化的过程偶尔在网上看到了java中

2018-01-18 16:36:35 2500

原创 2020-11-25

手上有很多java数据结构相关的基础代码需求，寻找一枚英语水平还行，能力还行的java程序员，有兴趣的跟我聊聊吧

2020-11-25 22:45:34 146

原创 sparkstreaming读取文件读取不到数据

今天用了下sparkstreaming读取hdfs文件或本地目录文件，发现文件内容一直不会被处理，使用了下面两种方法都不行，阅读源码并开启DEBUG后发现，textFileStream后面也是调用fileStream方法，并且newFilesOnly传入的为true，这个值为true时，spark只会处理文件创建时间大于spark启动时间的文件。。这个比较坑，老文件无论如何都不会被处理。刚开始的时候这个值传入true并且也使用新文件，也是一样没有处理，开了DEBUG后才发现有一个guava的错误，由于版

2020-09-28 18:03:52 1060

原创 spark2查看并修改源码

如果你只是想单纯的修改部分类的源码，并不需要网上教程的mvn build等操作。。。。本文基于spark2.1.0,spark2以后，没有spark-assembly.jar了，东西拆分成了不同的模块,spark-core.jar spark-yarn.jar等等...1. 查看源码http://spark.apache.org/downloads.html下好你使...

2019-07-17 15:55:18 185

原创 spark dataset groupby 之后是否自动缓存

spark2.1.0中使用spark dataset做一些操作//data中c根据ol1 字段做分组 val data = sparkSession.csv(true,",","file:///Users/zhujiye/Downloads/work2.csv") //groupbyData 类型为 RelationalGroupedDataset val groupbyData = da...

2018-12-20 00:08:39 348