自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (1)
  • 收藏
  • 关注

原创 一段时间内的所有日期

看到本文标题, 就知道方法一,并不是结束, 那么如果知道每个活动的起止时间经历的所有日期, 去重之后,直接聚合, 不是快速且愉快的得到所需结果, 那么有没有这样的函数呢?一品牌进行多场营销活动,多场活动起止时间上有重合,求该品牌进行活动的天数,如果活动时间有重复,只能算一次。一样的, show code ,配上注释,自行服用哦 ~先上代码,配上注释,自行服用哦 ~使用工具是: hive sql。

2023-07-26 11:54:29 121

原创 hive字符串去掉,提取中文

数据中是否包含什么特殊字符/中文场景;提取出字段中的中文/特殊字符等问题.

2022-08-16 14:35:17 2593 1

原创 记一次hsql解析大json的全过程

记一次hsql解析大json的全过程1.背景环境说明2.原始数据长什么样子3.期望结果是什么样子4.解析思路及过程6.注意事项1.背景环境说明数仓同步过来的mysql表, 其中一个字段是非常大的json; 需求方需要的数据是在json中; 需要对复杂json进行解析; 本文环境是阿里云的maxcompute, 类似hive,有现成的内置函数来json解析对象和数组;get_json_object()json_tuple()2.原始数据长什么样子原始数据, 一个字段值 大小约20k; json中

2021-07-14 15:33:16 801

原创 hive函数三部曲_基本函数(一)

hive基本函数应用写在前面本文基本结构为(标题),(语法),(说明),(例子),(结果),(常用函数组合),简单函数不会做过多说明,读者可按需求查找。Hive 版本2.4.X,建议用ctrl+f搜索的方式定位需要的函数, 下一篇为hive_特殊类型函数(二)一.准备工作创建一个测试表ods.test_table1,建表语句如下:--drop table ods.test_table...

2020-03-25 12:09:03 886

原创 linux_环境变量

一. 背景在开发或运维中, 会涉及很多自己搭建环境,配置环境变量的情况, 现对此情况做一些说明.二.说明1. /etc/profile此文件用来设置系统环境参数, 比如$PATH;这里边的环境变量是对系统所有用户都生效, 使用bash命令生效:source /etc/profile2. ~/.bashrc此文件是针对系统内,某一特定用户, 环境变量的设置只对该用户自己有效. 使...

2020-03-24 14:46:58 101

原创 kafka_机器数量计算

记一个kafka机器数量的经验公式 :Kafka机器数量 =2*(峰值生产速度*副本数/100)+1先拿到峰值生产速度,再根据设定的副本数,就能预估出需要部署Kafka的数量。举个例子:我们的峰值生产速度是50M/s。副本数为2。Kafka机器数量=2*(50*2/100)+ 1=3台...

2020-03-24 14:27:01 558

原创 oozie_中文乱码解决方式

一. 平台背景: hue上oozie调度hql执行二. 问题描述 : 如果hql里硬编码 中文插入数据到hive里会乱码, 具体表现是在hue上直接写sql不会乱码, 但是放到Oozie上调度运行写入会乱码三. 演示如下:当sql中含有如下写法( 部分sql )case open_account_type when 1 then ...

2020-03-24 12:04:12 1746 2

原创 Scala 三个引号

Scala中三个引号应用双引号1.换行需要加/n ,比如:val s = "select * from user \n where user_id >100"println(s)控制台输出结果:select * from userwhere user_id >100三引号1:中间字符串可以直接回车换行val s ="""select * from user ...

2019-12-30 19:03:03 2074

原创 sql关联 on后面加条件

记两则需求SQL关联注意事项需求一: 两个表分条件选择join两个表字段如下表ci:c_idlevel 1level2level3level4其他字段表qq:level_ranklevel_id其他字段两个表的关联条件是: qq.level_rank = 1 时, 用qq.level_id =ci. level1...

2019-11-05 19:12:58 4901 1

原创 sparksql 中between and时间字符串转化

sparksql 中between and 字符串转化记一个问题记一个问题在写sparksql的时候,出现的问题, 数据库中表 test_table 的格式valid_dateuser_idtotal_balancedate用户id交易总金额// 执行spark 语句1spark.sql("SELECT user_id from test_table whe...

2019-10-21 18:48:25 3361 1

原创 Scala之mac安装Scala

Scala之mac安装1.下载Scala安装包1)安装scala的前提是有Java 1.8版本以上的环境,打开终端,输入Java -version 确认是否有此环境,如果没有或版本过低,就要安装Java2)下载 Scala二进制包,这里用的Scala版本是2.11.8 ,官方下载地址:http://www.scala-lang.org/download将下载的包放到/usr/local/s...

2019-09-28 19:38:36 1039

sql 50条基于阿里云dataworks,结果及脚本

sql 50条基于阿里云dataworks,结果及脚本

2022-07-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除