自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (5)
  • 收藏
  • 关注

原创 PYSpark

python SGD

2022-09-19 10:45:04 476 1

原创 Scala本地连接带有kerberos的Hive

Scala本地连接带有kerberos的Hive,网上找了很多但是自己实际用起来还是连不上,所有贴上可用的版本。代码中的confPath路径就是实际本地路径,例如项目resources目录下的Kerberos目录:"C:\\UseXXX\\Project\\MY_Projects\\test3\\src\\main\\resources\\Kerberos\\"def initSpark() : SparkConf = { val isWin = System.getProperty

2021-12-22 11:17:23 1059

原创 Shell脚本控制并发执行spark程序

第一次写一个很复杂的Shell为了实现以下功能:1.查询hive状态表,表中根据request_type类型不同,执行数据refresh或者report逻辑。如果发现有refresh,默认插入2条report数据。2.如果同时有数据refresh和report,默认一定要refresh执行完,才能跑report.3.因为这是hive做状态控制,所有之前发现当有前台数据录入此表,后台autosys执行此脚本同时发生时,产生了数据的不一致性。为此修改了逻辑,只会执行一次hive数据查询,即使...

2021-08-06 10:29:55 1033

原创 动态为数值型列设置默认值0

public Dataset<Row> setDefaultOneZero(Dataset<Row> ds,String formName){ StructType structType = ds.schema(); int len = structType.fields().length; String keyStr = global.getMap().get("default.parameter").replaceAll("\\|.

2021-08-06 09:43:58 689

原创 Spark 自定义输出文件格式

MyTextOutputFormat.javaimport org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.io.com.

2021-07-22 18:48:53 1134

原创 自定义UDAF函数

Java 实现自定义UDAF函数,代码如下:package com.**;import org.apache.spark.sql.Row;import org.apache.spark.sql.expressions.MutableAggregationBuffer;import org.apache.spark.sql.expressions.UserDefinedAggregateFunction;import org.apache.spark.sql.types.DataType;i

2021-06-29 12:31:44 270

原创 spring boot 配置多个数据库

1. DataSourceConfig.javaimport org.springframework.beans.factory.annotation.Qualifier;import org.springframework.boot.context.properties.ConfigurationProperties;import org.springframework.boot.jdbc.DataSourceBuilder;import org.springframework.context

2021-05-04 19:44:54 136

原创 spark对spark.driver.maxResultSize报错的解决方案

最近有个需求需要union 上千甚至更多的dataset数据,然后cache(),然后count(),在执行count()这个action操作的时候,spark程序报错,如下:org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 16092 tasks (16.0 GB) is bigger than spark.driver.maxResultSize

2020-12-07 21:26:34 5948

原创 Intellij Idea 新建mave依赖的java spark 项目

1. Hadoop环境配置下载hadoop-2.9.2.tar.gz包到本地Windows目录,下载地址:http://archive.apache.org/dist/hadoop/core/hadoop-2.9.2/下载解压后需要在其bin目录下添加hadoop.dll和winutils.exe,对应版本下载地址:https://github.com/steveloughran/winutils/tree/master/hadoop-3.0.0/bin2. 新建maven依赖的j.

2020-09-28 11:12:04 216

原创 IntelliJ IDEA 新建Spring Boot项目

1.新建Spring Boot 项目用IntelliJ IDEA新建一个Spring Boot 项目,选择Spring Initializr,如下图:初始项目结构,各目录含义如下:pom文件为依赖管理文件;resources为资源文件夹;statics为静态资源;templates为模板资源;application.properties为配置文件...

2019-11-13 15:26:04 646

原创 Flume+kafka+spark streaming+Redis实时统计广告投放的pv,uv,click,cost

因为业务逻辑的修改,投放数据存入大数据集群中,因此,需要修改之前的业务逻辑,需要实时知道rtb投放的花费情况。环境版本:spark: 2.11-2.4.0-cdh6.2.0kafka: 2.1.0-cdh6.2.0fluem: 1.9.0-cdh6.2.01. Flume配置a1.sources = r1a1.sinks = k1a1.channels = c1...

2019-07-25 14:30:57 1171

原创 Tableau漏斗图制作过程

配置连接CDH上,使用impala查询,kerberos验证的数据源。1 sql语句:select count(*) as '数量' ,'ask' as '名称' from fact_dsp.fact_dsp_bid askwhere concat(ask.dt_y ,'-' , ask.dt_m , '-' , ask.dt_d )= <参数.年月日>union al...

2019-07-25 12:08:41 1572 2

原创 如何触发wpf的TextBox中添加MouseLeftButtonDown事件

如何触发wpf的TextBox的MouseLeftButtonDown事件

2015-12-09 12:51:40 4014 1

smarty手册

smarty手册,适合新手学习,作为工具书使用,有示例代码。

2016-03-09

21天学会C++

适合刚开始学习C++的人学习,讲解比较详细。

2013-12-29

量子遗传算法matlab程序实现

本程序是用于实现01背包问题的QGA算法,用matlab实现。

2011-02-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除