老板,我要写光所有SQL-CSDN博客

原创阿里云Flink自定义oracle、mysql连接器

创建好后将刚刚的MySqlTableSourceFactory类原封不动的全部粘贴上去，这样我们从一个.class文件变成了自己的.java文件，再修改成自己想要的connector名，不能和mysql重名，例如我就叫mysql-test-cdc。公司刚入手阿里云的flink，不得不说flink全托管对于简单的数据同步是比较的友好，但是如果是用它来进行flink实时计算，那还是有点小问题，比如底层代码不给开发，只能让你配合它，最多给你个flink1.13或1.15版本选择等等。

2023-05-05 10:56:21 968

原创通过Dataworks的Pyodps连接Oracle库定时调度发送邮件报表Excel

通过Dataworks将Oracle的SQL任务通过数据集成同步到表中，然后将表中的数据用pyodps调度，群发至指定的邮箱

2023-03-15 18:02:37 985

原创 odps SQL解析json对象的一些问题

例如一个json就是一个界面，有多个shop；一个shop有多个product；每个product都有一个title。我们该如何获取所有shop的所有product的title呢？这就需要探讨第二个问题了。后面可以再用lateral view展开。但上述代码返回的是一个数组型的。odps同样也提供了一个函数。通过上述代码可以将返回的。

2022-10-13 14:40:48 4544

原创在多表join时where和on关键字的问题

有关join的where以及on关键字的问题

2022-10-08 14:07:14 388

原创 SQL实现一行数据分组后转多行多列

通过聚合拆分再聚合的方式实现一行数据变分组的多行多列

2022-09-28 15:30:31 3163

原创基于多表增量同步的拉链表实现

对复杂的拉链表如何实现可以根据以下几点：使用with关键字；多级full join；以及拆分任务

2022-07-04 16:55:48 884

原创 ODPS SQL，UDTF实现递归查询，以及不走网络获取本表数据的问题

论怎么不走网络实现ODPS的递归查询操作

2022-06-24 16:11:35 2089

原创利用dataworks实现多表联合的拉链表

概述什么是拉链表？拉链表就是对数据的一种状态化的展现，数据何时发生了变化，该行数据该状态的持续时间段一目了然。拉链表的一行数据具体形式如下：数据内容a 数据内容b 起始时间结束时间其中起始时间是该行数据从何时开始生效，结束时间为该行数据何时失效，一般来说该时间精确到天。假如是用户拉链表，对于某一个特定id的用户来说，数据就像是拉链一般，每一个起始时间对应该用户上一个状态的结束时间。拉链表有何作用？一般来说，一个维度表的数据通常不大于100w...

2022-01-26 17:14:27 2346

原创阿里云dataworks将MySQL数据同步至maxcompute

阿里云dataworks同步任务流程

2021-12-16 16:23:18 3619 1

原创 hive中union的一些问题

首先union去重，union all 不去重，union能对多行相同的数据只留一行。但是有些实际应用中union无法去重，却又找不到原因，往往是因为查询语句与建表语句的数据格式不同，比如建表时，money 字段为bigint类型，然后查询语句中sum（xxx） money，得到的是Int类型，如果两个重复数据进行union时，即使两个数据都是Int类型，也不会进行去重，需要都与建表语句的类型一致才能去重。...

2021-09-13 15:40:52 1276

原创 hive多表联查full join连接条件问题

我们在hive中会经常使用多表联查，也就是我们常做的join 或者 union 。但是在写完SQL后会发现往往实现不了业务需求，而我们却又找不到原因所在，下面是多表联查的一些经典的问题。1. 丢数据少数据如果我们要查询的数据每一个表有一个字段进行连接，比如连接条件为ont1.id=t2.id，若要查询符合条件的所有数据势必使用full join，如果所有id对应每个表中都有数据，那么是不会出现问题的，但是通常不会所有id在任意表中都非空，这会出现一个问题。就拿t1,t2,t3，3个表举例，每个.

2021-09-13 10:34:31 11537

原创 group by能够查询的字段

分组组名不仅仅是group by的字段，还可以是各种分组字段的标量函数，比如concat（），data_format（），什么都可以，但只能用分组后的字段。这样看应该比较明显，在group by筛选后，字段只有creator与total_premium了，因此select中只能携带这两个字段。只能是这三种的一个或者多个的组合，否则报错。（分组后的每组只会有一行数据，故只能对每组的数据由多到一的转变）准确说上面这段代码，重新根据执行顺序翻译一下应该如下。

2021-09-10 16:17:13 2233

原创 scala递归与尾递归

众所周知，函数的递归是任何一门语言的噩梦，java的递归会进行压栈的操作，如果递归次数过多，代码不够完善，会造成栈溢出，scala也是如此。首先什么是压栈呢？简单来说，当用到某些参数或者调用函数的时候，会将这些数据压入栈中，在计算机系统中，栈数据为先进后出的，也就是说最先使用的数据会被之后关联的数据压在底下，如果要释放该数据，需要先释放在它之上的数据，也就是后进栈的数据。递归函数会不停的调用自身，进行压栈，直到递归结束才会停止压栈的行为，占据栈内存会随着递归次数的增加而指数型增长，最终导致栈溢出。

2021-08-13 18:19:54 291

原创 SQL 获取每个部门中当前员工薪水最高的相关信息

描述有一个员工表dept_emp简况如下:有一个薪水表salaries简况如下:获取每个部门中当前员工薪水最高的相关信息，给出dept_no, emp_no以及其对应的salary，按照部门编号升序排列，以上例子输出如下:数据：INSERT INTO dept_emp VALUES(10001,'d001','1986-06-26','9999-01-01');INSERT INTO dept_emp VALUES(10002,'d001','1996-08-03'.

2021-08-12 11:06:50 3515

原创 Maxcompute SQL语法

DDL 表操作创建表 --创建新表。 create [external] table [if not exists] <table_name> [(<col_name> <data_type> [not null] [default <default_value>] [comment <col_comment>], ...)] [comment <table_comment>] [partitione.

2021-08-11 11:11:52 1228

转载 Maxcompute SQL

关键字MaxCompute将SQL语句的关键字作为保留字。在对表、列或是分区命名时如若使用关键字，需给关键字加``符号进行转义，否则会报错。保留字不区分大小写。下面只给出常用的保留字列表% & && ( ) * + - . / ; < <= <> = > >= ? ADD ALL ALTER AND AS .

2021-08-11 10:17:22 936

原创 HBase与Hive的关系

什么是HBase?1.首先它是一个非关系型数据库,不对数据进行计算、加工，仅限于查询与存储，该数据库里面存储的是结构化与非结构化数据，因此不适合对其进行关联查询，像SQL语言那种JOIN操作是无法实现的。2.基于hadoop架构，将数据存储至HDFS的DataNode中,提供高容错的支持，HBase中的RegionServer对其以region的格式进行管理，里面存储数据的模式是K-V键值对形式3.需要zookeeper的支持以及提供master的高可用、RegionServer的监控、元数..

2021-08-09 19:13:58 368

原创 HBase的入门

目录 HBase简介HBase入门HBase进阶Hash算法和布隆过滤器介绍HBase优化整合PhoenixLSM算法（日志结构合并树）HBase简介分布式、可扩展、海量数据存储的NoSQL数据库--非关系型数据库存储结构是K-V结构，多维映射（multi-dimensional map）逻辑示例 row_key按字典序排列按行切分成Region（计row_key的最大、最小值取中间进行切分） ...

2021-08-09 17:03:21 597

原创 idea的快捷代码设置

关于关于idea自带的一些快捷代码模板,如sout--System.out.println(),psvm或者main等等,使用起来非常方便,尤其在使用频率较高的情况下.那么我们如何编写自己想要使用的快捷代码呢?首先点击idea的左上角File,打开如下窗口选择Settings,或者直接快捷键Ctrl+Alt+s打开,来到如下界面点击live Templates,选择你要更改或者添加的代码快捷键的代码类型点击右上角的"+",再点击live Template就能够添加你.

2021-08-05 11:59:11 1763

原创 kafka入门

kafka概述定义 Kafka是一个分布式的基于发布/订阅模式的消息队列（Message Queue）主要应用于大数据实时处理领域。使用消息队列的好处解耦可恢复性缓冲灵活性&峰值处理能力异步通信消息队列的两种模式点对点模式(一对一) 发布/订阅模式(一对多) 基础..

2021-08-05 10:45:37 186

原创 flume组件原理及应用

目录flume应用flume问题flume应用 flume概述定义 Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。基础架构 agent是一个JVM进程,三个部分Source,Channel,Sink flume入门配置文件上官网搜索对应的组件的写法启动参数说明 bin/flume-ng .

2021-08-05 10:29:53 225

原创 MySQL入门

mysql的数据类型可以将mysql与java中类比，但是mysql中的数据类型有一些区别日期时间类型：year, date, datetime, timestamp 类似于Java里的java.sql.Date类浮点型系列：float,double double(M,D)：表示最长为M位，其中小数点后D位例如：double(5,2)表示的数据范围[-999.99,999.99]，如果超过这个范围会报错。定点型系列：decimal..

2021-08-05 10:29:33 108

原创解决Failed with exception java.io.IOException:java.lang.RuntimeException: Error in configuring object

很多天没用hive了,今天启动的时候就报一个:Failed with exception java.io.IOException:java.lang.RuntimeException: Error in configuring object根据错误信息描述,应该是配置文件的问题,可以查看hadoop的四大配置文件发现是在core.site.xml文件中配置了lzo压缩,删除后即可解决问题,保存后分发至集群各机器,重启集群即可....

2021-08-05 09:48:34 2112

qq_40772429的博客