hadoop
_萝卜_
一点点的努力
展开
-
Spark任务提交jar包依赖解决方案(开发阶段多次上传jar包比较慢,怎么办?)
通常我们将spark任务编写后打包成jar包,使用spark-submit进行提交,因为spark是分布式任务,如果运行机器上没有对应的依赖jar文件就会报ClassNotFound的错误。但是在开发阶段需要多次尝试上传到集群进行测试,如果采用jar-with-dependencies的形式,每次jar包都很大,上传会需要等好久,怎么办?参照博主的Spark任务提交jar包依赖...原创 2019-06-05 11:42:51 · 1387 阅读 · 0 评论 -
spark读取hbase中的多张表,通过scan方式来筛选出想要的信息
直接上代码package com.tophantimport java.text.SimpleDateFormatimport com.tophant.html.Util_htmlimport com.tophant.util.Utilimport org.apache.commons.lang.{StringEscapeUtils, StringUtils}import or...原创 2019-06-04 19:40:03 · 2530 阅读 · 0 评论