chimchim66-CSDN博客

原创 azure配置管道监控任务

创建了一个管道任务，想要监控每日调度执行情况，如果失败了发送飞书提醒。选失败时执行告警任务。

2025-05-28 16:01:37 190

原创【pg学习】-账号管理

用户是具有登录权限的角色，默认拥有登录数据库的权限。用户可以执行数据库操作，如查询、插入、更新等‌。

2025-05-28 15:32:34 271

原创【踩坑实录】-No enum constant com.alibaba.datax.plugin.writer.hdfswriter.SupportHiveDataType.LONG

从报错内容可知是因为枚举值出现了问题，关键词long,可知是数值类型有问题。仔细排查发现是json配置类型有问题，将bigint类型配置成了long。执行datax从pg库同步到hive库时发生报错。--从pg库同步到hive库。--hive同步到pg。

2025-03-20 11:55:33 190

原创【踩坑实录】-The function STRING takes only primitive types

从翻译内容来看可知是因为字段的数据类型导致的报错，关键信息string说明是string类型的字段有问题。由上可知，是将array<string>类型的数据写入string类型引起的报错。拼接上字符串，成功将array类型转为string,bug解决了～接下来就开始仔细看看我们执行的sql内容了。

2025-03-19 17:53:25 280

原创 pgsql行列转换

‌是PostgreSQL中的一个函数，用于将一个字符串根据正则表达式进行分割，并将结果返回为一个表格，每个分割后的部分作为一行‌‌。string_agg() 函数是 PostgreSQL 中的一个聚合函数，用于将一个列中的值连接成一个字符串。

2025-03-05 16:48:26 1326

原创【踩坑实录】-Error while compiling statement: FAILED: RuntimeException Unable to instantiate

确保你使用的 Hive 版本与 Hadoop 的版本兼容。不同版本的 Hadoop 可能需要特定版本的 Hive。如果你在使用 Kerberos 或其他安全机制，确保所有相关的安全配置都已正确设置，包括密钥和认证信息。查看 Hive 和 Hadoop 的日志文件，可能会提供更多关于错误原因的详细信息。有时候，JVM 参数（如内存设置）也可能影响 Hive 的启动。：如果使用了远程 metastore，确保这里正确设置了 metastore 的 URI。：确保这里设置了正确的数据仓库目录。

2025-02-24 14:59:42 634

原创 hive开窗函数边界值ROWS BETWEEN 和 RANGE BETWEEN区别

rows：指以行号来决定frame的范围，是物理意义上的行。

2025-02-20 16:32:37 459

原创【踩坑实录】-Boundary Amount must be a positive integer, provided amount is: 0

在许多编程场景中，边界参数（如数组大小、集合容量等）必须是一个正整数，不能为0或负数。如果参数值为0，程序会抛出。由关键词Window可以知道问题大约是出在开窗函数上面。确保在调用需要正数参数的方法时，传入的参数值大于0。异常，提示边界值必须是正数。

2025-02-17 16:51:24 243

原创【starrocks学习】之将starrocks表同步到hive

如果StarRocks和Hive都支持Spark访问，可以通过Spark读取StarRocks数据并写入Hive。如果数据量较小，可以先将StarRocks表数据导出为本地文件，再通过Hive的。编写Spark作业，从StarRocks读取数据并写入Hive。在Spark项目中添加StarRocks和Hive的依赖。在Hive中创建一个外部表，指向HDFS上的数据。查询Hive表，确认数据已同步。查询Hive表，确认数据已同步。查询Hive表，确认数据已同步。在Hive中创建表并加载数据。

2025-02-05 16:09:01 770

原创【starrocks学习】之将hive表数据同步到starrocks

将Hive表数据导出为StarRocks支持的格式，如Parquet或ORC。通过这些步骤，可以将Hive表数据同步到StarRocks。确保Hive和StarRocks都已正确安装并运行。在StarRocks中创建与Hive表结构一致的表。：确保Hive和StarRocks表的数据类型兼容。：确保有足够的权限访问HDFS和StarRocks。查询StarRocks表，确认数据已正确导入。：根据数据量调整导入参数，如并发度和超时时间。使用StarRocks的。

2025-02-05 14:28:03 925

原创【starrocks学习】之catalog

‌StarRocks的Catalog功能‌是一种数据目录管理工具，用于同时管理和查询内部和外部数据。StarRocks从2.3版本开始支持Catalog功能，允许用户在一个系统中方便地访问和查询存储在各种外部数据源（如HiveIcebergHudiDelta Lake、JDBC）的数据，而无需进行数据导入或迁移‌。

2025-01-26 17:46:58 1117

原创【踩坑实录】-pg锁表

当多个事务同时对同一张表进行大量并发更新操作时，容易产生锁争用问题，导致锁表。当对包含索引的表进行更新操作时，数据库需要同时更新索引，这会导致更多的锁争用。一个事务长时间运行而未提交或回滚，会占用大量资源并锁住相关的数据行或表。1.长时间运行的事务。

2025-01-21 16:21:53 915

原创修改hdfs路径权限

看报错日志获取到2个信息，一个网络问题，一个是文件权限问题。网络问题重试还是失败，应该不是因为这个，所以要处理文件的权限。shell执行以下命令，${hdfs_path}替换成目标表的文件路径。执行insert overwrite table 报错。

2025-01-20 20:03:41 240

原创 execute sql error: HdfsOrcScanner::do_open failed. reason = Failed to parse the postscript from file

通过hive catalog同步hive表数据到starrocks数据库，结果报错selecterr_msg: error=Error(255): 未知的错误 255, root_cause=GSSException: No valid credentials provided (Mechanism level: Failed to find any Kerberos tgt)

2024-12-18 21:42:46 367

原创 hive:Cannot truncate non-managed table table_name

在hue执行"truncate table db_name.table_name"时报错，报错内容为"Error while compiling statement: FAILED: SemanticException [Error 10146]: Cannot truncate non-managed table db_name.table_name"外部表：hive只管理元数据，hdfs管理实际数据文件，删除表的时候只删除了元数据数据文件还在；hdfs dfs -rm -f 路径/*

2024-12-09 11:33:38 745

原创 hive将包含逗号的字段拆分为多列

想将hive表中包含逗号的字段按逗号做分隔符进行分列操作。

2024-10-31 20:36:17 918

原创 hive_locks字段

HL_LOCK_TYPE: e // 锁类型： e(exclusive), r (shared), w(LOCK_SEMI_SHARED)HL_LOCK_INT_ID: // 一个递增编号，和 HL_LOCK_EXT_ID 组成联合主键。HL_TXNID: // 事务ID。HL_LOCK_EXT_ID: // 锁外部 ID。

2024-10-14 20:30:28 420 1

原创 pg跨库查询

不同库的数据表想要关联查询，但是pg不支持跨库查询。

2024-09-11 17:36:07 446

原创 hive时间函数

查询。

2024-09-09 15:42:20 416

原创 beeline -e 执行SQL中有双引号

beeline -e 执行SQL中有双引号害怕执行报错。

2024-08-02 17:53:54 407 2

原创修复 Mac 上卡住的 CoreServicesUIAgent 验证

关机重启后页面上一直弹窗CoreServicesUIAgent 验证，只能最小化，关不掉，强迫症表示很难受😭。

2024-04-23 11:46:35 1515

原创 DataArts Studio数据治理中心（原DGC)数据开发流程

数据开发流程

2024-04-16 16:20:07 606

原创数据治理中心DataArts Studio学习

DataArts Studio学习

2024-04-15 16:13:28 1551

原创 pg自定义函数动态生成表名

想在postgres数据库中动态查询【'table_2023'、'table_2024'...】这种格式表的数据。今天是'2023-12-22'号，查询语句为'select * from table_2023';今天是'2024-12-22'号，查询语句为'select * from table_2024';第二种方法，创建新表存储符合格式的所有表union all数据。执行后并不是我想要的结果，查询出来的只是我拼接出来的内容 😭。第一种方法，创建自定义函数查询当年表的数据。

2023-12-22 20:21:34 1012 1

原创 datax报错：No enum constant com.alibaba.datax.plugin.reader.hdfsreader.DFSUtil.Type.BIGINT

使用datax从hive2pg时报错。

2023-12-21 11:43:50 1030

原创 datax-自定义json遇到数据库字段名为关键字

源数据库：pg目标数据库：hive问题：自定义json时因pg表字段中包含desc的字段所以报错。

2023-12-13 15:37:04 1022

原创 Impala删除kudu表时遇到的问题

ps:表名就是报错内容里面提示的（impala::db_name.kudu_table_name），一定不要忘记前面的【impala::】！在IMPALA上面创建了KUDU表之后DROP TABLE了该表，想要重新执行建表语句，但是发现报错了，提示表已存在无法新建。kudu table delete master 主机名表名。

2023-07-20 15:49:27 920

原创 dolphinscheduler的switch组件

Switch 是一个条件判断节点，依据全局变量的值和用户所编写的表达式判断结果执行对应分支。注意使用 javax.script.ScriptEngine.eval 执行表达式。需要先配置前置任务；才能在条件中引用上游传递过来的参数值；配置好跟下游任务的依赖关系，符合条件的分支流转才能选到下游任务。

2023-07-03 16:45:13 2359 2

原创您的配置文件中的列配置信息有误. 因为DataX 不支持数据库写入这种字段类型. 字段名:[xx], 字段类型:[1111], 字段Java类型:[jsonb].

Description:[不支持的数据库类型. 请注意查看 DataX 已经支持的数据库类型以及数据库版本.]. - 您的配置文件中的列配置信息有误. 因为DataX 不支持数据库写入这种字段类型. 字段名:[xx], 字段类型:[1111], 字段Java类型:[jsonb]. 请修改表中该字段的类型或者不同步该字段.从报错信息中可知是source端出了问题，赶紧检查了一下表结构字段类型，发现hive端该字段类型为STRING,pg端字段类型为jsonb,正常不应该出现问题的啊。

2023-06-26 11:48:03 1722 2

原创 RPC(Remote Procedure Call)学习

首先，调用进程发送一个有进程参数的调用信息到服务进程，然后等待应答信息。当一个调用信息到达，服务器获得进程参数，计算结果，发送答复信息，然后等待下一个调用信息，最后，RPC 全称是 Remote Procedure Call （远程过程调用），它是一种通过网络从远程计算机程序上请求服务，可以提供终结点映射程序以及RPC服务，而不需要了解底层网络技术的协议，是windows系统三大服务之一。的存在，如TCP或UDP，为通信程序之间携带信息数据。调用过程接收答复信息，获得进程结果，然后调用执行继续进行。

2023-06-21 16:12:41 477

原创 FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.tez.TezTask

这个报错的原因可能就比较多了，有可能是因为JOB太大集群资源不够；HDFS目录权限不够，执行SQL时需要创建目录；引擎故障（tez引擎出现问题）；自定义函数，jar包问题等。这个报错的原因是Java以jdbc方式直接操作hive，但是先关闭了连接，导致后面的操作无法执行了。使用dolphinscheduler工具执行HIVE SQL报错。本次我只是报错后重跑一下就成功了，所以目测是因为集群资源问题导致。（实在不行重启数据库，解决99%的问题😄）

2023-06-21 11:18:30 1656 3

原创 Apache Kafka学习

Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。Kafka是一种消息队列，主要用来处理大量数据状态下的消息队列，一般用来做日志的处理。官方中文文档Kafka 中文文档 - ApacheCN1.Kafka作为一个集群，运行在一台或者多台服务器上2.Kafka 通过topic对存储的流数据进行分类。

2023-06-13 16:00:14 1546

原创 Apache Kudu入门学习

范围分区的分区方式将数据按照范围进行分类，每个partition会分配一个固定的范围，每个数据只会属于一个分区，不同的partition的范围不能有重叠，分区在表的创建阶段配置，后续不可修改，但是可以删除和新增，如果数据找不到所属的分区将会插入失败。数据的写入会被均匀的分散到各个 tablet 中，写入速度快。故障自动检测和自我修复：为了保持数据的高可用性，系统会检测故障的 Tablet 副本并从可用的副本中重新复制数据，因此当集群中有足够的 Tablet Server 可用时，会自动替换故障的副本。

2023-06-02 15:25:34 755

原创 impala内存超限

impala内存限制问题

2023-06-02 14:40:16 1560

原创 dolphinscheduler使用impala shell执行sql

因为impala shell -q 执行sql用""或''都可以，但是中间踩了一次坑，双引号的时候如果字段中有用到``的会报错，排查下来发现单引号可以，双引号的时候会报错。2).【工作流定义】-【创建工作流】-【shell组件】（编辑内容&资源里选择要执行的文件）-【保存】-【上线】-【执行】【工作流定义】-【创建工作流】-【shell组件】（编辑内容）-【保存】-【上线】-【执行】1).【资源中心】-【创建文件】

2023-05-17 16:04:45 935

原创 kudu可视化工具:kudu-plus

例如，存储事件日志的表可以在每个月开始之前添加月份分区，以便保存即将发生的事件。通常，主键列用作要散列的列，但与范围分区一样，可以使用主键列的任何子集。kudu-plus是可视化管理kudu的工具，由于kudu虽然是列式数据库，但是可以表达成关系数据库类似的表和字段等信息，某种情况下通过可视化管理更加轻松。使用多级分区，可以将这两种策略结合起来，以获得两者的好处，同时最大限度地减少每种策略的缺点。除了添加或删除范围分区之外，Kudu不允许您在创建后更改表的分区方式。v0.0.2功能（预期）

2023-05-08 16:05:11 986

原创 [DataX引擎配置错误，该问题通常是由于DataX安装错误引起，请联系您的运维解决 .]. - 在有总bps限速条件下，单个channel的bps值不能为空，也不能为非正数

DataX引擎配置错误，该问题通常是由于DataX安装错误引起，请联系您的运维解决 .]. - 在有总bps限速条件下，单个channel的bps值不能为空，也不能为非正数。如果bps限速和tps限速只设置了一个，那以设置的那个为准，因为没设置的那个默认Integer.MAX_VALUE，肯定大于设置的那个，所以取小的数就是设置的那个。如果bps限速和tps限速都没有设置，那才读取直接设置的值，也就是说，直接设置的优先级最低。如果bps限速和tps限速都设置了，那谁比较小，以哪个为主。

2023-04-27 12:12:15 4636

原创 hive解析json

说明：lateral view用于和split、explode等UDTF一起使用的，能将一行数据拆分成多行数据，在此基础上可以对拆分的数据进行聚合，lateral view首先为原始表的每行调用UDTF，UDTF会把一行拆分成一行或者多行，lateral view在把结果组合，产生一个支持别名表的虚拟表。我们进行ETL(Extract-Transfer-Load) 过程中,经常会遇到从不同数据源获取的不同格式的数据，其中某些字段就是json格式，里面拼接了很多字段。，今天讲一下如何解析出来相关数据。

2023-04-21 14:11:04 3655

原创生命周期管理矩阵

生命周期管理矩阵

2023-04-19 17:52:07 615

原创 pg统计磁盘占用大小

pg查看内存大小

2023-03-28 11:41:18 2727

大数据性能优化.pptx

atlas配置hive hook

标准化-数仓建模设计原则及案例讲解

标准化-数据开发规范文档

标准化-数据交付流程参考

数据仓库/数据治理面试经验总结

空空如也