自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 阿里云Flink自定义oracle、mysql连接器

创建好后将刚刚的MySqlTableSourceFactory类原封不动的全部粘贴上去,这样我们从一个.class文件变成了自己的.java文件,再修改成自己想要的connector名,不能和mysql重名,例如我就叫mysql-test-cdc。公司刚入手阿里云的flink,不得不说flink全托管对于简单的数据同步是比较的友好,但是如果是用它来进行flink实时计算,那还是有点小问题,比如底层代码不给开发,只能让你配合它,最多给你个flink1.13或1.15版本选择等等。

2023-05-05 10:56:21 688

原创 通过Dataworks的Pyodps连接Oracle库定时调度发送邮件报表Excel

通过Dataworks将Oracle的SQL任务通过数据集成同步到表中,然后将表中的数据用pyodps调度,群发至指定的邮箱

2023-03-15 18:02:37 766

原创 odps SQL解析json对象的一些问题

例如一个json就是一个界面,有多个shop;一个shop有多个product;每个product都有一个title。我们该如何获取所有shop的所有product的title呢?这就需要探讨第二个问题了。后面可以再用lateral view展开。但上述代码返回的是一个数组型的。odps同样也提供了一个函数。通过上述代码可以将返回的。

2022-10-13 14:40:48 2552

原创 在多表join时where和on关键字的问题

有关join的where以及on关键字的问题

2022-10-08 14:07:14 329

原创 SQL实现一行数据分组后转多行多列

通过聚合拆分再聚合的方式实现一行数据变分组的多行多列

2022-09-28 15:30:31 2795

原创 基于多表增量同步的拉链表实现

对复杂的拉链表如何实现可以根据以下几点:使用with关键字;多级full join;以及拆分任务

2022-07-04 16:55:48 723

原创 ODPS SQL,UDTF实现递归查询,以及不走网络获取本表数据的问题

论怎么不走网络实现ODPS的递归查询操作

2022-06-24 16:11:35 1676

原创 利用dataworks实现多表联合的拉链表

概述什么是拉链表?拉链表就是对数据的一种状态化的展现,数据何时发生了变化,该行数据该状态的持续时间段一目了然。拉链表的一行数据具体形式如下:数据内容a 数据内容b 起始时间 结束时间其中起始时间是该行数据从何时开始生效,结束时间为该行数据何时失效,一般来说该时间精确到天。假如是用户拉链表,对于某一个特定id的用户来说,数据就像是拉链一般,每一个起始时间对应该用户上一个状态的结束时间。拉链表有何作用?一般来说,一个维度表的数据通常不大于100w...

2022-01-26 17:14:27 2073

原创 阿里云dataworks将MySQL数据同步至maxcompute

阿里云dataworks同步任务流程

2021-12-16 16:23:18 2966

原创 hive中union的一些问题

首先union去重,union all 不去重,union能对多行相同的数据只留一行。但是有些实际应用中union无法去重,却又找不到原因,往往是因为查询语句与建表语句的数据格式不同,比如建表时,money 字段为bigint类型,然后查询语句中sum(xxx) money,得到的是Int类型,如果两个重复数据进行union时,即使两个数据都是Int类型,也不会进行去重,需要都与建表语句的类型一致才能去重。...

2021-09-13 15:40:52 1150

原创 hive多表联查full join连接条件问题

我们在hive中会经常使用多表联查,也就是我们常做的join 或者 union 。但是在写完SQL后会发现往往实现不了业务需求,而我们却又找不到原因所在,下面是多表联查的一些经典的问题。1. 丢数据少数据如果我们要查询的数据每一个表有一个字段进行连接,比如连接条件为ont1.id=t2.id,若要查询符合条件的所有数据势必使用full join,如果所有id对应每个表中都有数据,那么是不会出现问题的,但是通常不会所有id在任意表中都非空,这会出现一个问题。就拿t1,t2,t3,3个表举例,每个.

2021-09-13 10:34:31 10998

原创 group by能够查询的字段

分组组名不仅仅是group by的字段,还可以是各种分组字段的标量函数,比如concat(),data_format(),什么都可以,但只能用分组后的字段。这样看应该比较明显,在group by筛选后,字段只有creator与total_premium了,因此select中只能携带这两个字段。只能是这三种的一个或者多个的组合,否则报错。(分组后的每组只会有一行数据,故只能对每组的数据由多到一的转变)准确说上面这段代码,重新根据执行顺序翻译一下应该如下。

2021-09-10 16:17:13 2072

原创 scala递归与尾递归

众所周知,函数的递归是任何一门语言的噩梦,java的递归会进行压栈的操作,如果递归次数过多,代码不够完善,会造成栈溢出,scala也是如此。首先什么是压栈呢?简单来说,当用到某些参数或者调用函数的时候,会将这些数据压入栈中,在计算机系统中,栈数据为先进后出的,也就是说最先使用的数据会被之后关联的数据压在底下,如果要释放该数据,需要先释放在它之上的数据,也就是后进栈的数据。递归函数会不停的调用自身,进行压栈,直到递归结束才会停止压栈的行为,占据栈内存会随着递归次数的增加而指数型增长,最终导致栈溢出。

2021-08-13 18:19:54 231

原创 SQL 获取每个部门中当前员工薪水最高的相关信息

描述有一个员工表dept_emp简况如下:有一个薪水表salaries简况如下:获取每个部门中当前员工薪水最高的相关信息,给出dept_no, emp_no以及其对应的salary,按照部门编号升序排列,以上例子输出如下:数据:INSERT INTO dept_emp VALUES(10001,'d001','1986-06-26','9999-01-01');INSERT INTO dept_emp VALUES(10002,'d001','1996-08-03'.

2021-08-12 11:06:50 3418

原创 Maxcompute SQL语法

DDL 表操作 创建表 --创建新表。 create [external] table [if not exists] <table_name> [(<col_name> <data_type> [not null] [default <default_value>] [comment <col_comment>], ...)] [comment <table_comment>] [partitione.

2021-08-11 11:11:52 888

转载 Maxcompute SQL

关键字MaxCompute将SQL语句的关键字作为保留字。在对表、列或是分区命名时如若使用关键字,需给关键字加``符号进行转义,否则会报错。保留字不区分大小写。下面只给出常用的保留字列表% & && ( ) * + - . / ; < <= <> = > >= ? ADD ALL ALTER AND AS .

2021-08-11 10:17:22 637

原创 HBase与Hive的关系

什么是HBase?1.首先它是一个非关系型数据库,不对数据进行计算、加工,仅限于查询与存储,该数据库里面存储的是结构化与非结构化数据,因此不适合对其进行关联查询,像SQL语言那种JOIN操作是无法实现的。2.基于hadoop架构,将数据存储至HDFS的DataNode中,提供高容错的支持,HBase中的RegionServer对其以region的格式进行管理,里面存储数据的模式是K-V键值对形式3.需要zookeeper的支持以及提供master的高可用、RegionServer的监控、元数..

2021-08-09 19:13:58 278

原创 HBase的入门

目录 HBase简介HBase入门HBase进阶Hash算法和布隆过滤器介绍HBase优化整合PhoenixLSM算法(日志结构合并树)HBase简介 分布式、可扩展、海量数据存储的NoSQL数据库--非关系型数据库 存储结构是K-V结构,多维映射(multi-dimensional map) 逻辑示例 row_key按字典序排列 按行切分成Region(计row_key的最大、最小值取中间进行切分) ...

2021-08-09 17:03:21 498

原创 idea的快捷代码设置

关于关于idea自带的一些快捷代码模板,如sout--System.out.println(),psvm或者main等等,使用起来非常方便,尤其在使用频率较高的情况下.那么我们如何编写自己想要使用的快捷代码呢?首先点击idea的左上角File,打开如下窗口选择Settings,或者直接快捷键Ctrl+Alt+s打开,来到如下界面点击live Templates,选择你要更改或者添加的代码快捷键的代码类型点击右上角的"+",再点击live Template就能够添加你.

2021-08-05 11:59:11 1640

原创 kafka入门

kafka概述 定义 Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue)主要应用于大数据实时处理领域。 使用消息队列的好处 解耦 可恢复性 缓冲 灵活性&峰值处理能力 异步通信 消息队列的两种模式 点对点模式(一对一) 发布/订阅模式(一对多) 基础..

2021-08-05 10:45:37 143

原创 flume组件原理及应用

目录flume应用flume问题flume应用 flume概述 定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 基础架构 agent是一个JVM进程,三个部分Source,Channel,Sink flume入门 配置文件 上官网搜索对应的组件的写法 启动参数说明 bin/flume-ng .

2021-08-05 10:29:53 175

原创 MySQL入门

mysql的数据类型 可以将mysql与java中类比,但是mysql中的数据类型有一些区别 日期时间类型:year, date, datetime, timestamp 类似于Java里的java.sql.Date类 浮点型系列:float,double double(M,D):表示最长为M位,其中小数点后D位 例如:double(5,2)表示的数据范围[-999.99,999.99],如果超过这个范围会报错。 定点型系列:decimal..

2021-08-05 10:29:33 71

原创 解决Failed with exception java.io.IOException:java.lang.RuntimeException: Error in configuring object

很多天没用hive了,今天启动的时候就报一个:Failed with exception java.io.IOException:java.lang.RuntimeException: Error in configuring object根据错误信息描述,应该是配置文件的问题,可以查看hadoop的四大配置文件发现是在core.site.xml文件中配置了lzo压缩,删除后即可解决问题,保存后分发至集群各机器,重启集群即可....

2021-08-05 09:48:34 1899

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除