自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(127)
  • 资源 (5)
  • 收藏
  • 关注

原创 修复 Mac 上卡住的 CoreServicesUIAgent 验证

关机重启后页面上一直弹窗CoreServicesUIAgent 验证,只能最小化,关不掉,强迫症表示很难受😭。

2024-04-23 11:46:35 256

原创 DataArts Studio数据治理中心(原DGC)数据开发流程

数据开发流程

2024-04-16 16:20:07 212

原创 数据治理中心DataArts Studio学习

DataArts Studio学习

2024-04-15 16:13:28 1049

原创 pg自定义函数动态生成表名

想在postgres数据库中动态查询【'table_2023'、'table_2024'...】这种格式表的数据。今天是'2023-12-22'号,查询语句为'select * from table_2023';今天是'2024-12-22'号,查询语句为'select * from table_2024';第二种方法,创建新表存储符合格式的所有表union all数据。执行后并不是我想要的结果,查询出来的只是我拼接出来的内容 😭。第一种方法,创建自定义函数查询当年表的数据。

2023-12-22 20:21:34 579 1

原创 datax报错:No enum constant com.alibaba.datax.plugin.reader.hdfsreader.DFSUtil.Type.BIGINT

使用datax从hive2pg时报错。

2023-12-21 11:43:50 608

原创 datax-自定义json遇到数据库字段名为关键字

源数据库:pg目标数据库:hive问题:自定义json时因pg表字段中包含desc的字段所以报错。

2023-12-13 15:37:04 673

原创 Impala删除kudu表时遇到的问题

ps:表名就是报错内容里面提示的(impala::db_name.kudu_table_name),一定不要忘记前面的【impala::】!在IMPALA上面创建了KUDU表之后DROP TABLE了该表,想要重新执行建表语句,但是发现报错了,提示表已存在无法新建。kudu table delete master 主机名 表名。

2023-07-20 15:49:27 603

原创 dolphinscheduler的switch组件

Switch 是一个条件判断节点,依据全局变量的值和用户所编写的表达式判断结果执行对应分支。注意使用 javax.script.ScriptEngine.eval 执行表达式。需要先配置前置任务;才能在条件中引用上游传递过来的参数值;配置好跟下游任务的依赖关系,符合条件的分支流转才能选到下游任务。

2023-07-03 16:45:13 1259 2

原创 您的配置文件中的列配置信息有误. 因为DataX 不支持数据库写入这种字段类型. 字段名:[xx], 字段类型:[1111], 字段Java类型:[jsonb].

Description:[不支持的数据库类型. 请注意查看 DataX 已经支持的数据库类型以及数据库版本.]. - 您的配置文件中的列配置信息有误. 因为DataX 不支持数据库写入这种字段类型. 字段名:[xx], 字段类型:[1111], 字段Java类型:[jsonb]. 请修改表中该字段的类型或者不同步该字段.从报错信息中可知是source端出了问题,赶紧检查了一下表结构字段类型,发现hive端该字段类型为STRING,pg端字段类型为jsonb,正常不应该出现问题的啊。

2023-06-26 11:48:03 983 2

原创 RPC(Remote Procedure Call)学习

首先,调用进程发送一个有进程参数的调用信息到服务进程,然后等待应答信息。当一个调用信息到达,服务器获得进程参数,计算结果,发送答复信息,然后等待下一个调用信息,最后,RPC 全称是 Remote Procedure Call (远程过程调用),它是一种通过网络从远程计算机程序上请求服务,可以提供终结点映射程序以及RPC服务,而不需要了解底层网络技术的协议,是windows系统三大服务之一。的存在,如TCP或UDP,为通信程序之间携带信息数据。调用过程接收答复信息,获得进程结果,然后调用执行继续进行。

2023-06-21 16:12:41 407

原创 FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.tez.TezTask

这个报错的原因可能就比较多了,有可能是因为JOB太大集群资源不够;HDFS目录权限不够,执行SQL时需要创建目录;引擎故障(tez引擎出现问题);自定义函数,jar包问题等。这个报错的原因是Java以jdbc方式直接操作hive,但是先关闭了连接,导致后面的操作无法执行了。使用dolphinscheduler工具执行HIVE SQL报错。本次我只是报错后重跑一下就成功了,所以目测是因为集群资源问题导致。(实在不行重启数据库,解决99%的问题😄)

2023-06-21 11:18:30 1225 3

原创 Apache Kafka学习

Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。Kafka是一种消息队列,主要用来处理大量数据状态下的消息队列,一般用来做日志的处理。官方中文文档Kafka 中文文档 - ApacheCN1.Kafka作为一个集群,运行在一台或者多台服务器上2.Kafka 通过topic对存储的流数据进行分类。

2023-06-13 16:00:14 1464

原创 Apache Kudu入门学习

范围分区的分区方式将数据按照范围进行分类,每个partition会分配一个固定的范围,每个数据只会属于一个分区,不同的partition的范围不能有重叠,分区在表的创建阶段配置,后续不可修改,但是可以删除和新增,如果数据找不到所属的分区将会插入失败。数据的写入会被均匀的分散到各个 tablet 中,写入速度快。故障自动检测和自我修复:为了保持数据的高可用性,系统会检测故障的 Tablet 副本并从可用的副本中重新复制数据,因此当集群中有足够的 Tablet Server 可用时,会自动替换故障的副本。

2023-06-02 15:25:34 648

原创 impala内存超限

impala内存限制问题

2023-06-02 14:40:16 986

原创 dolphinscheduler使用impala shell执行sql

因为impala shell -q 执行sql用""或''都可以,但是中间踩了一次坑,双引号的时候如果字段中有用到``的会报错,排查下来发现单引号可以,双引号的时候会报错。2).【工作流定义】-【创建工作流】-【shell组件】(编辑内容&资源里选择要执行的文件)-【保存】-【上线】-【执行】【工作流定义】-【创建工作流】-【shell组件】(编辑内容)-【保存】-【上线】-【执行】1).【资源中心】-【创建文件】

2023-05-17 16:04:45 716

原创 kudu可视化工具:kudu-plus

例如,存储事件日志的表可以在每个月开始之前添加月份分区,以便保存即将发生的事件。通常,主键列用作要散列的列,但与范围分区一样,可以使用主键列的任何子集。kudu-plus是可视化管理kudu的工具,由于kudu虽然是列式数据库,但是可以表达成关系数据库类似的表和字段等信息,某种情况下通过可视化管理更加轻松。使用多级分区,可以将这两种策略结合起来,以获得两者的好处,同时最大限度地减少每种策略的缺点。除了添加或删除范围分区之外,Kudu不允许您在创建后更改表的分区方式。v0.0.2功能(预期)

2023-05-08 16:05:11 875

原创 [DataX引擎配置错误,该问题通常是由于DataX安装错误引起,请联系您的运维解决 .]. - 在有总bps限速条件下,单个channel的bps值不能为空,也不能为非正数

DataX引擎配置错误,该问题通常是由于DataX安装错误引起,请联系您的运维解决 .]. - 在有总bps限速条件下,单个channel的bps值不能为空,也不能为非正数。如果bps限速和tps限速只设置了一个,那以设置的那个为准,因为没设置的那个默认Integer.MAX_VALUE,肯定大于设置的那个,所以取小的数就是设置的那个。如果bps限速和tps限速都没有设置,那才读取直接设置的值,也就是说,直接设置的优先级最低。如果bps限速和tps限速都设置了,那谁比较小,以哪个为主。

2023-04-27 12:12:15 2792

原创 hive解析json

说明:lateral view用于和split、explode等UDTF一起使用的,能将一行数据拆分成多行数据,在此基础上可以对拆分的数据进行聚合,lateral view首先为原始表的每行调用UDTF,UDTF会把一行拆分成一行或者多行,lateral view在把结果组合,产生一个支持别名表的虚拟表。我们进行ETL(Extract-Transfer-Load) 过程中,经常会遇到从不同数据源获取的不同格式的数据,其中某些字段就是json格式,里面拼接了很多字段。,今天讲一下如何解析出来相关数据。

2023-04-21 14:11:04 3281

原创 生命周期管理矩阵

生命周期管理矩阵

2023-04-19 17:52:07 469

原创 pg统计磁盘占用大小

pg查看内存大小

2023-03-28 11:41:18 2308

原创 查看pg版本

查看pg版本

2023-03-02 17:25:01 499

原创 hive支持的数据类型

hive支持的数据类型

2023-02-27 20:58:10 435

原创 Postgre SQL ERROR:there is no unique or exclusion constraint matching the ON CONFLICT specification

pg constraint报错

2023-02-24 15:51:11 3745

原创 扩展学习之时间戳趣谈

扩展学习之时间戳趣谈

2023-02-23 21:43:16 839

原创 hive只复制表结构不复制表数据

hive

2023-02-23 15:58:01 1097

原创 如何把夸克视频或资料下载到iphone

夸克资源下载

2023-02-16 10:21:49 12963

原创 PostgreSQL update/delete/upsert关联更新字段数据

PostgreSQL update/delete/upsert关联更新字段数据

2023-02-07 10:36:19 5125

原创 正则表达式之量词

正则表达式之量词

2023-02-06 07:51:18 385

原创 常见正则表达式使用参考

常见正则表达式使用参考

2023-02-03 08:20:53 263

原创 http状态码

http状态码

2023-02-03 07:51:46 220

原创 ERROR: column “a“ of relation “table2“ does not exist

pg执行update select时报错

2023-01-04 15:52:26 3689

原创 cannot update table because it does not have a replica identity and publishes updates

pg执行update select语句报错

2023-01-04 15:28:50 905

原创 Postgresql简单操作

Postgresql简单操作

2022-12-19 18:05:42 3501 1

原创 【踩坑实录】DBeaver数据导出CSV格式文件为科学计数法

DBeaver数据导出CSV格式文件为科学计数法

2022-12-16 12:52:20 2164

原创 hive补全连续或非连续空值数据sql

hive补全连续或非连续空值数据sql

2022-12-01 18:40:38 1450

原创 hive acid及事务表踩坑学习实录

hive acid及事务表踩坑学习实录

2022-11-28 19:04:56 673

原创 hive sql生成数仓分钟维表

hive sql生成数仓分钟维表

2022-11-22 16:11:52 535

原创 hive判断重复数据连续并分组

连续重复数据合并

2022-11-15 13:57:48 809

原创 sql判断是否连续并生成连续分组id

sql判断是否连续并生成连续分组id

2022-11-10 11:37:11 617

原创 insert overwrite table不会覆盖原文件,而是新增一个文件

insert overwrite 多个文件问题

2022-11-09 17:37:52 1752

atlas配置hive hook

atlas配置hive hook

2022-09-06

标准化-数据开发规范文档

标准化-数据开发规范文档,主要包含层级调用规范、命名规范、etl开发规范、清洗规范、加密脱敏规范、迭代规范等

2022-08-12

标准化-数仓建模设计原则及案例讲解

标准化-数仓建模设计原则及案例讲解,包含维度建模、范式建模、data value

2022-08-12

标准化-数据交付流程参考

标准化-数据中台交付流程

2022-08-08

数据仓库/数据治理面试经验总结

数仓面试经验总结

2022-07-13

大数据性能优化.pptx

包含hadoop架构及介绍。大数据性能优化,sql优化,mr调优等。每个优化方法都有实际案例说明,小白也可以看懂的哟!

2020-07-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除