spark
jane3von
~~
展开
-
Scala本地连接带有kerberos的Hive
Scala本地连接带有kerberos的Hive,网上找了很多但是自己实际用起来还是连不上,所有贴上可用的版本。代码中的confPath路径就是实际本地路径,例如项目resources目录下的Kerberos目录:"C:\\UseXXX\\Project\\MY_Projects\\test3\\src\\main\\resources\\Kerberos\\"def initSpark() : SparkConf = { val isWin = System.getProperty原创 2021-12-22 11:17:23 · 1072 阅读 · 0 评论 -
Spark 自定义输出文件格式
MyTextOutputFormat.javaimport org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.io.com.原创 2021-07-22 18:48:53 · 1167 阅读 · 0 评论 -
动态为数值型列设置默认值0
public Dataset<Row> setDefaultOneZero(Dataset<Row> ds,String formName){ StructType structType = ds.schema(); int len = structType.fields().length; String keyStr = global.getMap().get("default.parameter").replaceAll("\\|.原创 2021-08-06 09:43:58 · 696 阅读 · 0 评论 -
自定义UDAF函数
Java 实现自定义UDAF函数,代码如下:package com.**;import org.apache.spark.sql.Row;import org.apache.spark.sql.expressions.MutableAggregationBuffer;import org.apache.spark.sql.expressions.UserDefinedAggregateFunction;import org.apache.spark.sql.types.DataType;i原创 2021-06-29 12:31:44 · 285 阅读 · 0 评论 -
spark对spark.driver.maxResultSize报错的解决方案
最近有个需求需要union 上千甚至更多的dataset数据,然后cache(),然后count(),在执行count()这个action操作的时候,spark程序报错,如下:org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 16092 tasks (16.0 GB) is bigger than spark.driver.maxResultSize原创 2020-12-07 21:26:34 · 6046 阅读 · 0 评论 -
Intellij Idea 新建mave依赖的java spark 项目
1. Hadoop环境配置下载hadoop-2.9.2.tar.gz包到本地Windows目录,下载地址:http://archive.apache.org/dist/hadoop/core/hadoop-2.9.2/下载解压后需要在其bin目录下添加hadoop.dll和winutils.exe,对应版本下载地址:https://github.com/steveloughran/winutils/tree/master/hadoop-3.0.0/bin2. 新建maven依赖的j.原创 2020-09-28 11:12:04 · 222 阅读 · 0 评论