- 博客(130)
- 资源 (5)
- 收藏
- 关注
原创 修复 Mac 上卡住的 CoreServicesUIAgent 验证
关机重启后页面上一直弹窗CoreServicesUIAgent 验证,只能最小化,关不掉,强迫症表示很难受😭。
2024-04-23 11:46:35 703
原创 pg自定义函数动态生成表名
想在postgres数据库中动态查询【'table_2023'、'table_2024'...】这种格式表的数据。今天是'2023-12-22'号,查询语句为'select * from table_2023';今天是'2024-12-22'号,查询语句为'select * from table_2024';第二种方法,创建新表存储符合格式的所有表union all数据。执行后并不是我想要的结果,查询出来的只是我拼接出来的内容 😭。第一种方法,创建自定义函数查询当年表的数据。
2023-12-22 20:21:34 769 1
原创 datax报错:No enum constant com.alibaba.datax.plugin.reader.hdfsreader.DFSUtil.Type.BIGINT
使用datax从hive2pg时报错。
2023-12-21 11:43:50 787
原创 datax-自定义json遇到数据库字段名为关键字
源数据库:pg目标数据库:hive问题:自定义json时因pg表字段中包含desc的字段所以报错。
2023-12-13 15:37:04 811
原创 Impala删除kudu表时遇到的问题
ps:表名就是报错内容里面提示的(impala::db_name.kudu_table_name),一定不要忘记前面的【impala::】!在IMPALA上面创建了KUDU表之后DROP TABLE了该表,想要重新执行建表语句,但是发现报错了,提示表已存在无法新建。kudu table delete master 主机名 表名。
2023-07-20 15:49:27 743
原创 dolphinscheduler的switch组件
Switch 是一个条件判断节点,依据全局变量的值和用户所编写的表达式判断结果执行对应分支。注意使用 javax.script.ScriptEngine.eval 执行表达式。需要先配置前置任务;才能在条件中引用上游传递过来的参数值;配置好跟下游任务的依赖关系,符合条件的分支流转才能选到下游任务。
2023-07-03 16:45:13 1645 2
原创 您的配置文件中的列配置信息有误. 因为DataX 不支持数据库写入这种字段类型. 字段名:[xx], 字段类型:[1111], 字段Java类型:[jsonb].
Description:[不支持的数据库类型. 请注意查看 DataX 已经支持的数据库类型以及数据库版本.]. - 您的配置文件中的列配置信息有误. 因为DataX 不支持数据库写入这种字段类型. 字段名:[xx], 字段类型:[1111], 字段Java类型:[jsonb]. 请修改表中该字段的类型或者不同步该字段.从报错信息中可知是source端出了问题,赶紧检查了一下表结构字段类型,发现hive端该字段类型为STRING,pg端字段类型为jsonb,正常不应该出现问题的啊。
2023-06-26 11:48:03 1229 2
原创 RPC(Remote Procedure Call)学习
首先,调用进程发送一个有进程参数的调用信息到服务进程,然后等待应答信息。当一个调用信息到达,服务器获得进程参数,计算结果,发送答复信息,然后等待下一个调用信息,最后,RPC 全称是 Remote Procedure Call (远程过程调用),它是一种通过网络从远程计算机程序上请求服务,可以提供终结点映射程序以及RPC服务,而不需要了解底层网络技术的协议,是windows系统三大服务之一。的存在,如TCP或UDP,为通信程序之间携带信息数据。调用过程接收答复信息,获得进程结果,然后调用执行继续进行。
2023-06-21 16:12:41 430
原创 FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.tez.TezTask
这个报错的原因可能就比较多了,有可能是因为JOB太大集群资源不够;HDFS目录权限不够,执行SQL时需要创建目录;引擎故障(tez引擎出现问题);自定义函数,jar包问题等。这个报错的原因是Java以jdbc方式直接操作hive,但是先关闭了连接,导致后面的操作无法执行了。使用dolphinscheduler工具执行HIVE SQL报错。本次我只是报错后重跑一下就成功了,所以目测是因为集群资源问题导致。(实在不行重启数据库,解决99%的问题😄)
2023-06-21 11:18:30 1490 3
原创 Apache Kafka学习
Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。Kafka是一种消息队列,主要用来处理大量数据状态下的消息队列,一般用来做日志的处理。官方中文文档Kafka 中文文档 - ApacheCN1.Kafka作为一个集群,运行在一台或者多台服务器上2.Kafka 通过topic对存储的流数据进行分类。
2023-06-13 16:00:14 1482
原创 Apache Kudu入门学习
范围分区的分区方式将数据按照范围进行分类,每个partition会分配一个固定的范围,每个数据只会属于一个分区,不同的partition的范围不能有重叠,分区在表的创建阶段配置,后续不可修改,但是可以删除和新增,如果数据找不到所属的分区将会插入失败。数据的写入会被均匀的分散到各个 tablet 中,写入速度快。故障自动检测和自我修复:为了保持数据的高可用性,系统会检测故障的 Tablet 副本并从可用的副本中重新复制数据,因此当集群中有足够的 Tablet Server 可用时,会自动替换故障的副本。
2023-06-02 15:25:34 686
原创 dolphinscheduler使用impala shell执行sql
因为impala shell -q 执行sql用""或''都可以,但是中间踩了一次坑,双引号的时候如果字段中有用到``的会报错,排查下来发现单引号可以,双引号的时候会报错。2).【工作流定义】-【创建工作流】-【shell组件】(编辑内容&资源里选择要执行的文件)-【保存】-【上线】-【执行】【工作流定义】-【创建工作流】-【shell组件】(编辑内容)-【保存】-【上线】-【执行】1).【资源中心】-【创建文件】
2023-05-17 16:04:45 809
原创 kudu可视化工具:kudu-plus
例如,存储事件日志的表可以在每个月开始之前添加月份分区,以便保存即将发生的事件。通常,主键列用作要散列的列,但与范围分区一样,可以使用主键列的任何子集。kudu-plus是可视化管理kudu的工具,由于kudu虽然是列式数据库,但是可以表达成关系数据库类似的表和字段等信息,某种情况下通过可视化管理更加轻松。使用多级分区,可以将这两种策略结合起来,以获得两者的好处,同时最大限度地减少每种策略的缺点。除了添加或删除范围分区之外,Kudu不允许您在创建后更改表的分区方式。v0.0.2功能(预期)
2023-05-08 16:05:11 907
原创 [DataX引擎配置错误,该问题通常是由于DataX安装错误引起,请联系您的运维解决 .]. - 在有总bps限速条件下,单个channel的bps值不能为空,也不能为非正数
DataX引擎配置错误,该问题通常是由于DataX安装错误引起,请联系您的运维解决 .]. - 在有总bps限速条件下,单个channel的bps值不能为空,也不能为非正数。如果bps限速和tps限速只设置了一个,那以设置的那个为准,因为没设置的那个默认Integer.MAX_VALUE,肯定大于设置的那个,所以取小的数就是设置的那个。如果bps限速和tps限速都没有设置,那才读取直接设置的值,也就是说,直接设置的优先级最低。如果bps限速和tps限速都设置了,那谁比较小,以哪个为主。
2023-04-27 12:12:15 3727
原创 hive解析json
说明:lateral view用于和split、explode等UDTF一起使用的,能将一行数据拆分成多行数据,在此基础上可以对拆分的数据进行聚合,lateral view首先为原始表的每行调用UDTF,UDTF会把一行拆分成一行或者多行,lateral view在把结果组合,产生一个支持别名表的虚拟表。我们进行ETL(Extract-Transfer-Load) 过程中,经常会遇到从不同数据源获取的不同格式的数据,其中某些字段就是json格式,里面拼接了很多字段。,今天讲一下如何解析出来相关数据。
2023-04-21 14:11:04 3484
原创 Postgre SQL ERROR:there is no unique or exclusion constraint matching the ON CONFLICT specification
pg constraint报错
2023-02-24 15:51:11 4053
原创 PostgreSQL update/delete/upsert关联更新字段数据
PostgreSQL update/delete/upsert关联更新字段数据
2023-02-07 10:36:19 5565
原创 ERROR: column “a“ of relation “table2“ does not exist
pg执行update select时报错
2023-01-04 15:52:26 4275
原创 cannot update table because it does not have a replica identity and publishes updates
pg执行update select语句报错
2023-01-04 15:28:50 1149
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人