jane3von-CSDN博客

Scala本地连接带有kerberos的Hive,网上找了很多但是自己实际用起来还是连不上，所有贴上可用的版本。代码中的confPath路径就是实际本地路径，例如项目resources目录下的Kerberos目录："C:\\UseXXX\\Project\\MY_Projects\\test3\\src\\main\\resources\\Kerberos\\"def initSpark() : SparkConf = { val isWin = System.getProperty

2021-12-22 11:17:23 1059

原创 Shell脚本控制并发执行spark程序

第一次写一个很复杂的Shell为了实现以下功能：1.查询hive状态表，表中根据request_type类型不同，执行数据refresh或者report逻辑。如果发现有refresh，默认插入2条report数据。2.如果同时有数据refresh和report，默认一定要refresh执行完，才能跑report.3.因为这是hive做状态控制，所有之前发现当有前台数据录入此表，后台autosys执行此脚本同时发生时，产生了数据的不一致性。为此修改了逻辑，只会执行一次hive数据查询，即使...

2021-08-06 10:29:55 1033

原创动态为数值型列设置默认值0

public Dataset<Row> setDefaultOneZero(Dataset<Row> ds,String formName){ StructType structType = ds.schema(); int len = structType.fields().length; String keyStr = global.getMap().get("default.parameter").replaceAll("\\|.

2021-08-06 09:43:58 689

原创 Spark 自定义输出文件格式

MyTextOutputFormat.javaimport org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.io.com.

2021-07-22 18:48:53 1134

原创自定义UDAF函数

Java 实现自定义UDAF函数，代码如下：package com.**;import org.apache.spark.sql.Row;import org.apache.spark.sql.expressions.MutableAggregationBuffer;import org.apache.spark.sql.expressions.UserDefinedAggregateFunction;import org.apache.spark.sql.types.DataType;i

2021-06-29 12:31:44 270

原创 spring boot 配置多个数据库

1. DataSourceConfig.javaimport org.springframework.beans.factory.annotation.Qualifier;import org.springframework.boot.context.properties.ConfigurationProperties;import org.springframework.boot.jdbc.DataSourceBuilder;import org.springframework.context

2021-05-04 19:44:54 136

原创 spark对spark.driver.maxResultSize报错的解决方案

最近有个需求需要union 上千甚至更多的dataset数据，然后cache(),然后count(),在执行count(）这个action操作的时候，spark程序报错，如下：org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 16092 tasks (16.0 GB) is bigger than spark.driver.maxResultSize

2020-12-07 21:26:34 5948

原创 Intellij Idea 新建mave依赖的java spark 项目

1. Hadoop环境配置下载hadoop-2.9.2.tar.gz包到本地Windows目录，下载地址：http://archive.apache.org/dist/hadoop/core/hadoop-2.9.2/下载解压后需要在其bin目录下添加hadoop.dll和winutils.exe，对应版本下载地址：https://github.com/steveloughran/winutils/tree/master/hadoop-3.0.0/bin2. 新建maven依赖的j.

2020-09-28 11:12:04 216

原创 IntelliJ IDEA 新建Spring Boot项目

1.新建Spring Boot 项目用IntelliJ IDEA新建一个Spring Boot 项目，选择Spring Initializr，如下图：初始项目结构，各目录含义如下：pom文件为依赖管理文件；resources为资源文件夹；statics为静态资源；templates为模板资源；application.properties为配置文件...

2019-11-13 15:26:04 646

原创 Flume+kafka+spark streaming+Redis实时统计广告投放的pv,uv,click,cost

因为业务逻辑的修改，投放数据存入大数据集群中，因此，需要修改之前的业务逻辑，需要实时知道rtb投放的花费情况。环境版本：spark: 2.11-2.4.0-cdh6.2.0kafka: 2.1.0-cdh6.2.0fluem: 1.9.0-cdh6.2.01. Flume配置a1.sources = r1a1.sinks = k1a1.channels = c1...

2019-07-25 14:30:57 1171

原创 Tableau漏斗图制作过程

配置连接CDH上，使用impala查询，kerberos验证的数据源。1 sql语句：select count(*) as '数量' ,'ask' as '名称' from fact_dsp.fact_dsp_bid askwhere concat(ask.dt_y ,'-' , ask.dt_m , '-' , ask.dt_d )= <参数.年月日>union al...

2019-07-25 12:08:41 1572 2

原创如何触发wpf的TextBox中添加MouseLeftButtonDown事件

如何触发wpf的TextBox的MouseLeftButtonDown事件

2015-12-09 12:51:40 4014 1

smarty手册

smarty手册，适合新手学习，作为工具书使用，有示例代码。

2016-03-09

21天学会C++

适合刚开始学习C++的人学习，讲解比较详细。

2013-12-29

量子遗传算法matlab程序实现

本程序是用于实现01背包问题的QGA算法，用matlab实现。

2011-02-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

jane3von的专栏

原创 PYSpark

原创 Scala本地连接带有kerberos的Hive