自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 工作中写hivesql容易犯错误的事项

最近工作由于接业务事项较多,发现写sql及容易犯的事项,即便工作多年的老sqlboy,也会犯这种错误,特此总结一下:1、null 字段不能做为关联字段,如果关联字段中有null,请用下边方式写,否则会丢失数据nvl(a.col,'-')=nvl(b.col,'-')2、where条件里的!= 会过滤值为null的数据这个和1的情况处理方式一样nvl(a.col,'-')!=3、左连接写也会数据倾斜,需要将数据单独取出处理数据量特别大的情况下连接也会出现数据倾斜,通常处理方式是将数据量特别

2022-04-10 11:29:50 174

转载 Hadoop切分纯文本时对某一行跨两个分片这种情况的处理

hdfs写入文件需要把大文件分割成多个块,那么有可能会把文件的某一个行分成在不同的块中;这是一个出现分块的时候。还有个就是我的上篇博文中说到的,在mapreduce处理时,当hdfs分块的block大小大于split设置的最大值时也会分割成多个split分片,相当于对块的进一步切割。但是这两种情况出现的概率都很小。当我们提交一个MapReduce程序来处理一个或多个纯文本时,Hadoop会根据设置的分片(split)大小把文件切分成多个(InputSplit),然后分配给MapReduce程序处理。而由于

2022-04-10 11:09:31 383

原创 hive中laterview explode加row_number() 实现排序功能

工作中用到,突然想到自己只是写过laterview,并未关注过其排序,所以就实现了一把,下面就是样例,希望对看到的同学有所帮助,帮忙点个赞!!!1、表名及数据testcity tpyebeijing aa|aab|cc|acshanghai dd|ff|aa2、要实现的数据beijing aa 1beijing aab 2beijing cc 3beijing ac 4shanghai dd 1shanghai ff 2shanghai aa 33、latervie

2020-07-09 23:05:40 1465

原创 Flink从kafka读取数据写入到mysql中,然后任务提交到集群

1、maven依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.o

2020-05-18 17:35:40 534

原创 Flink解析binlog方案

01、在项目中加入maven依赖<dependency> <groupId>com.alibaba.otter</groupId> <artifactId>canal.client</artifactId> <version>1.1.4</version></dependency>02、在自定义的实现类中传入的是kafka传来的binlog,string格式,后续我们仅需要将binlog解析打入到k

2020-05-12 23:39:53 4667

原创 Flink自定义 Sink 函数从kafka往kudu写数据

1、flink Sink简介flink 中有两个重要的概念,Source 和 Sink ,Source 决定了我们的数据从哪里产生,而 Sink 决定了数据将要去到什么地方。flink 自带有丰富的 Sink,比如:kafka、csv 文件、ES、Socket 等等。当我们想要使用当前并未实现的 Sink 函数时,可以进行自定义。2、自定义 Sink 函数这里主要自定义写入 kudu 的 kuduSink。自定义sink需要我们实现 SinkFunction,或者继承 RichSinkFunct

2020-05-12 23:36:38 5147 6

原创 Flink处理kafka中复杂json数据、自定义get_json_object函数实现打印数据

最近用到flink处理复杂json,原生flink不支持json_value

2020-05-12 23:22:05 3912 2

原创 Dataworks集成开发平台IntelliJ IDEA

直接查看官网:https://help.aliyun.com/document_detail/50889.html?spm=a2c4g.11186623.6.867.cb6ffb52CrPvoR

2020-04-20 14:47:00 789

原创 hive中udf、udtf、udaf函数说明和写法(直接上代码)

hive中几种udf函数代码,由于这个比较容易理解,直接上代码,首先导入maven依赖: <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> ...

2020-04-06 23:48:50 707

转载 Windows下配置Hadoop环境(全过程)

Windows下配置Hadoop环境(全过程) 原创 ...

2020-04-06 23:16:00 1215

原创 面试用神sql--套路--开拓思路

1、求每组所包含的商品个数1 a,b,c2 c,d3 j,k,l,k,k4 ccreate table LA (id string,name string) row format delimited fields terminated by ' ' stored as textfile;load data local inpath '/root/LA.txt' into tabl...

2019-12-12 17:15:50 140

原创 面试用神sql--套路--累计报表

这几年面试数仓,一般肯定会问累计报表sql,所以总结了以下几个方法,作为练习及准备建表导数据create table t_access_times(username string,month string,salary int)row format delimited fields terminated by ',';load data local inpath '/home/dmp_c...

2019-02-27 14:57:09 214

原创 面试经常被问到,linux下递归删除某个目录下的指定文件!!!

之前被面试被问到过,突然想起来,起初想用类似于编程递归调用实现,感觉很难写,后来翻阅了一些资料,发现就一个指令的事情1.首先看目录结构[root@hadoop1]# tree testtest├── b│ └── cc.txt├── bb.csv└── bb.txt2.直接执行下边的指令即可[root@hadoop1]# find test -name '*.txt'...

2018-12-21 16:31:16 699

转载 hive中分析函数总结

Hive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍。文章参考阿里云上看到转过来的先看几个基础的,SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。Hive数据准备 CREATE TABLE lxw1234 ( cookieid string, createtime string, --day pv I...

2018-11-29 22:36:55 414

原创 Oracle回顾--常用函数(2)

一、伪列 【不用你创建,只要创建完表,自己就会存在的】rowid【用来寻址用的,我想找到表中的某一行,通过rowid定位】rownum【代表行号,来标记一行,唯一的号码的】select owner from t where rownum &lt;=10; 伪列 rowiddelete from t where rownum&lt;=10000;(删除t表10000行)二、聚合函数...

2018-11-28 21:57:54 194

原创 Oracal回顾--分析函数总结(1)

从事大数据数仓相关工作几年,今天偶然回去复习了 一下oracle的sql分析函数(hive中有些区别,后续还会总结),发现之前总结的还是有不少精华部分,故作此记录,以提醒自己要温故而知新,方可进步,否则只会捡了芝麻,丢了西瓜。闲话少续,先建表造一下数据create table earnings -- 打工赚钱表 ( earnmonth varchar2(6), -- 打工月份 ...

2018-11-28 21:44:37 161

原创 Centos6.X安装mysql 5.5.48的方法,mysql创建用户及权限控制

工作中经常用到mysql,所以避免不了安装mysql,所以就简单记录一下,以便用到时,能够快速的安装centos6.X basic server 版本 默认安装了mysql5.1,所以先卸载mysql5.1,这种方法会卸载依赖,可以用查找mysql服务的方式用rpm卸载yum -y remove mysql-libs-5.1*下载对应的MySQL安装包rpm文件,可以去MySQL官方...

2018-11-24 21:43:20 582

原创 Linux基础回顾--shell脚本awk命令详解(6)

awk是一门比较复杂的语言,语法较多,这里只做简单概述,主要是了解awk的思路,工作中能够灵活运用,如果深入研究还要去官网深入学习awk概述awk是行处理器: 相比较屏幕处理的优点,在处理庞大文件时不会出现内存溢出或是处理缓慢的问题,通常用来格式化文本信息awk处理过程: 依次对每一行进行处理,然后输出awk命令形式:awk [-F|-f|-v] ‘BEGIN{} //{command1...

2018-11-23 15:15:57 225

原创 Linux基础回顾--shell脚本sed命令详解(5)

概述sed命令是一个面向字符流的非交互式编辑器,也就是说sed不允许用户与它进行交互操作。sed是按行来处理文本内容的。在shell中,使用sed来批量修改文本内容是非常方便的,也是非常实用的,之前看过很多文章都是长篇叙述,讲的不清晰,故这次自己总结一下。sed命令的选项sed [选项] [动作]选项与参数:-n :使用安静(silent)模式。在一般 sed 的用法中,所有来自 ST...

2018-11-23 13:48:33 181 1

原创 Linux基础回顾--shell脚本编程知识点大全(4)

当时才开始学shell脚本时,感觉好多语法要记,写起来也是很繁琐,再次回顾之前的知识,发现掌握好基础才是关键,才能更高效快速的写出想要的脚本,下面就简单介绍一下shell的基础知识shell变量变量赋值:1,定义时赋值:变量=值 等号两侧不能有空格eg:STR="hello world"A=92, 将一个命令的执行结果赋给变量A=`ls -la` 反引号,运行里面的命令,并把...

2018-11-23 13:34:19 261

原创 Linux基础回顾--其它常用命令,磁盘、用户权限等(3)

继续回顾其它的常用命令,包括磁盘,用户权限,进程等,这些指令需要慢慢理解网络通信命令ping 命令路径:/bin/ping 执行权限:所有用户作用:测试网络的连通性语法:ping 选项 IP地址 -c 指定发送次数 ping 命令使用的是icmp协议,不占用端口eg: # ping -c 3 127.0.0.1ifconfig 英文:interface conf...

2018-11-23 12:52:25 112

原创 Linux基础回顾--vim编辑器(2)

版权声明:本文为博主原创文章,未经博主允许不得转载

2018-11-23 11:19:28 175

原创 Linux基础回顾--基础指令(1)

版权声明:本文为博主原创文章,未经博主允许不得转载

2018-11-23 10:45:51 188

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除