大数据
飘满红楼
勿在浮沙筑高台,不为繁华易匠心
展开
-
spark关于hdfs上配置文件的高可用访问配置
背景:java项目中存在excel这样的资源文件,处理方法是将excel通过hadoop fs -copyFromLocal方式上传到hdfs文件系统上。hdfs有两个namenode,所以访问路径需要设置成高可用的路径处理代码:声明spark环境 val sparkConf = new SparkConf() .setAppName("FieldRelativeApplication") .set("spark.serializer", "org.apa原创 2020-10-22 15:13:15 · 1688 阅读 · 0 评论 -
spark读取excel成dataframe的几种方式
目前只用到两种方法一data.xlsx放在resource目录下相关依赖<dependency> <groupId>com.crealytics</groupId> <artifactId>spark-excel_2.11</artifactId> <version>0.10.2</version></dependency>主要代码val sparkConf = n.原创 2020-10-16 11:01:04 · 3265 阅读 · 1 评论 -
spark(scala)中对mongodb以及excel的处理和小问题的解决(比如select传入可变参数问题解决)
背景:采用spark读取mongodb和Excel的数据,由于mongodb是bson类型的数据,需要的字段名比较少且按照层级选取,想到的办法是先把数据全部读成df,然后通过select操作查找需要的字段出现的问题是:因为将生成特定字段的df封装成函数,而函数本身是需要传入字段名列表(Seq类型)的,而select操作通过看源码接收的参数类型是col : scala.Predef.String, cols : scala.Predef.String*类型的,所以需要处理相关函数原创 2020-09-20 11:02:06 · 460 阅读 · 0 评论 -
azkaban编译安装采坑记录
1、下载相应的azkaban的Linux版本的压缩包# 下载wget https://github.com/azkaban/azkaban/archive/3.70.0.tar.gz# 解压tar -zxvf azkaban-3.70.0.tar.gzgithub如果过慢的话可以同步到码云仓库,直接下载2、需提前下载好gradle打包工具,不然安装时gradle-wrapper.properties里面的连接下载非常慢wget https://services.gradle.org原创 2020-08-07 11:53:30 · 2751 阅读 · 0 评论