- 博客(9)
- 资源 (8)
- 收藏
- 关注
原创 本地提交spark任务至yarn
关于本地提交spark任务至yarn,之前一直采用的是本地安装hadoop、spark等环境后通过相关API 提交任务。 此种方法的不足:本地需要安装hadoop、spark环境,对于新手来说非常痛苦,非常容易出现各种问题,如本地配置文件版本过多导致任务受影响等。 每个人提交任务的user都是自己电脑的user,容易出现各种问题,如hdfs、hive相关的权限问题 相关的api提交...
2019-07-17 15:45:23 1496
原创 sparkstreaming消费kafka如何保证输出结果只会产生一次?(事务性)
最近开始使用sparkstreaming+kafka0.10,使用过程中碰到问题: steaming采用的direct方式 ,(这种方式和receiver方式的对比性能会好很多),spark计算完数据之后有一个结果入库操作,现在问题来了,采用自动提交的时候程序二次启动经常会出现重复消费的情况,并且怎么保证这个结果只生产一次呢?首先介绍一下sparkstreaming内部是怎么做到消息只计算一...
2018-07-05 17:54:01 4490 4
原创 使用sparksubmit提交application时始终找不到三方jar 提升class not found
spark2.1.0 hadoop 2.6.0(ambari)spark中使用了三方jar并且运行模式为yarn时,执行如下命令:./spark-submit --master yarn --deploy-mode cluster --driver-memory 1g --executor-memory 3g --executor-cores 1 --class com.test.Test /tm...
2018-06-26 12:50:45 4396 3
原创 kafka0.10版本spark只能读到一个分区的数据,错误Beginning offset xxx is the same as ending offset
sparkstreaming 2.1.0 kafka 0.10.1.1 topic三个partition相关配置代码:val kafkaParam = Map[String,Object]( "key.deserializer"->classOf[StringDeserializer] ,"value.deserializer"->classOf[StringDeserial...
2018-06-26 12:39:57 2057 1
原创 关于Spark处理double类型数据时的一个小优化
在探索spark优化的过程中,百度出来的千篇一律无非都是一些配置的修改,其实代码的优化是一个非常关键,甚至可以起决定性作用的步骤。 最近根据自己的项目内容完成了一个基于spark的分块矩阵求逆,需要求一个20000*20000矩阵的逆。单机的工具如jama 求出来得按小时计。由于公司集群硬件条件有限,在处理时一直存在着内存溢出和计算耗时过长的问题。。。。在不停的优化的过程偶尔在网上看到了java中
2018-01-18 16:36:35 2500
原创 sparkstreaming读取文件读取不到数据
今天用了下sparkstreaming读取hdfs文件或本地目录文件,发现文件内容一直不会被处理,使用了下面两种方法都不行,阅读源码并开启DEBUG后发现,textFileStream后面也是调用fileStream方法,并且newFilesOnly传入的为true,这个值为true时,spark只会处理文件创建时间大于spark启动时间的文件。。这个比较坑,老文件无论如何都不会被处理。刚开始的时候这个值传入true并且也使用新文件,也是一样没有处理,开了DEBUG后才发现有一个guava的错误,由于版
2020-09-28 18:03:52 1060
原创 spark2查看并修改源码
如果你只是想单纯的修改部分类的源码,并不需要网上教程的mvn build等操作。。。。本文基于spark2.1.0,spark2以后, 没有spark-assembly.jar了,东西拆分成了不同的模块,spark-core.jar spark-yarn.jar等等...1. 查看源码http://spark.apache.org/downloads.html下好你使...
2019-07-17 15:55:18 185
原创 spark dataset groupby 之后是否自动缓存
spark2.1.0中使用spark dataset做一些操作//data中c根据ol1 字段做分组 val data = sparkSession.csv(true,",","file:///Users/zhujiye/Downloads/work2.csv") //groupbyData 类型为 RelationalGroupedDataset val groupbyData = da...
2018-12-20 00:08:39 348
windows中使用yarn-cluster模式提交spark任务
2015-12-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人