- 博客(159)
- 资源 (5)
- 收藏
- 关注
原创 Azure Data Factory (ADF) 之databricks使用
databricks【笔记本】-【sql】组件中直接使用变量即可。databricks【笔记本】-【python】组件使用参数。实现目标:adf变量及参数传送到databricks使用。(1).adf里新建管道,新建【设置变量】(2).插入【笔记本】设置中添加笔记本路径。新建notebook。
2026-06-05 14:12:42
248
原创 pg dblink使用查询
需要将两个数据库(pg_a/pg_b)下的表在pg里面跨库关联查询。pg_a数据库的table_a表;pg_b数据库的table_b表。数据库类型:postgres。
2026-05-22 17:23:39
33
原创 Azure ADF(Azure Data Factory 数据工厂)学习
Azure Data Factory 是微软 Azure 提供的完全托管云数据集成服务,主要用于自动化数据移动与转换(ETL/ELT),帮助用户构建数据驱动的工作流以整合来自不同源的数据。简介资料。
2026-05-22 17:15:27
236
原创 dolphinscheduler 把数据库表内容转成markdown文件
打印变量echo "=====获取数据库返回内容====="# 写入md文件# 查看文件 & 大小echo -e "\n=====文件信息====="
2026-04-27 16:24:02
59
原创 MAC电脑微信无法使用解决全记录
卸载重装一系列操作下仍然无法使用,一气之下暴力卸载了!!!(然后发现还是没有用,关机重启了也不行!!!气鼓鼓~)
2026-03-25 15:26:02
496
原创 FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.tez.TezTask. Application
在增加内存后,应监控系统的性能和资源使用情况,确保没有出现内存溢出等问题。通过上述步骤,你可以有效地增加Hive使用Tez时的内存使用量,从而提高查询性能和系统稳定性。从关键词可知tez引擎发生了问题,那我们就调整一下Tez的配置参数来增加内存使用量。对于Tez的AM和Task,也可以通过设置环境变量来调整JVM的堆内存大小。文件中的参数来增加Tez容器(即YARN中的容器)的内存。例如,要增加单个容器的最大内存为8GB,可以设置。中,可以设置一些参数来控制Tez的内存使用。在YARN中,可以通过调整。
2026-01-05 15:14:21
508
原创 Error: Error while compiling statement: FAILED: ParseException line 1:80 mismatched input ‘-‘ expect
执行shell语句beeline -u "insert overwrite table abc partition(ds=${ds}) select * from table where ds=${ds}" 时,参数配置ds=$[yyyy-MM-dd-1]。
2026-01-05 15:04:03
575
原创 Error: Could not open client transport with JDBC Uri: jdbc:hive2://
如果你的 Hive 设置需要认证(如 Kerberos),确保你的连接字符串包含了正确的认证参数,例如。查看 HiveServer2 的日志和你的应用程序的日志,这可能会提供更多关于为什么连接失败的线索。),并且你的用户有权限访问 Hive 数据库。确保 Hive 配置允许从你的客户端地址连接。确保你的项目中已经正确添加了 Hive JDBC 驱动。对于 Hive,通常使用的是。确认你的应用程序可以访问 Hive 服务器的网络地址和端口。确保你的 JDBC 连接字符串格式正确。
2026-01-05 14:28:44
696
原创 【踩坑实录】-No enum constant com.alibaba.datax.plugin.writer.hdfswriter.SupportHiveDataType.LONG
从报错内容可知是因为枚举值出现了问题,关键词long,可知是数值类型有问题。仔细排查发现是json配置类型有问题,将bigint类型配置成了long。执行datax从pg库同步到hive库时发生报错。--从pg库同步到hive库。--hive同步到pg。
2025-03-20 11:55:33
336
原创 【踩坑实录】-The function STRING takes only primitive types
从翻译内容来看可知是因为字段的数据类型导致的报错,关键信息string说明是string类型的字段有问题。由上可知,是将array<string>类型的数据写入string类型引起的报错。拼接上字符串,成功将array类型转为string,bug解决了~接下来就开始仔细看看我们执行的sql内容了。
2025-03-19 17:53:25
391
原创 pgsql行列转换
是PostgreSQL中的一个函数,用于将一个字符串根据正则表达式进行分割,并将结果返回为一个表格,每个分割后的部分作为一行。string_agg() 函数是 PostgreSQL 中的一个聚合函数,用于将一个列中的值连接成一个字符串。
2025-03-05 16:48:26
3390
原创 【踩坑实录】-Error while compiling statement: FAILED: RuntimeException Unable to instantiate
确保你使用的 Hive 版本与 Hadoop 的版本兼容。不同版本的 Hadoop 可能需要特定版本的 Hive。如果你在使用 Kerberos 或其他安全机制,确保所有相关的安全配置都已正确设置,包括密钥和认证信息。查看 Hive 和 Hadoop 的日志文件,可能会提供更多关于错误原因的详细信息。有时候,JVM 参数(如内存设置)也可能影响 Hive 的启动。:如果使用了远程 metastore,确保这里正确设置了 metastore 的 URI。:确保这里设置了正确的数据仓库目录。
2025-02-24 14:59:42
894
原创 【踩坑实录】-Boundary Amount must be a positive integer, provided amount is: 0
在许多编程场景中,边界参数(如数组大小、集合容量等)必须是一个正整数,不能为0或负数。如果参数值为0,程序会抛出。由关键词Window可以知道问题大约是出在开窗函数上面。确保在调用需要正数参数的方法时,传入的参数值大于0。异常,提示边界值必须是正数。
2025-02-17 16:51:24
350
原创 【starrocks学习】之将starrocks表同步到hive
如果StarRocks和Hive都支持Spark访问,可以通过Spark读取StarRocks数据并写入Hive。如果数据量较小,可以先将StarRocks表数据导出为本地文件,再通过Hive的。编写Spark作业,从StarRocks读取数据并写入Hive。在Spark项目中添加StarRocks和Hive的依赖。在Hive中创建一个外部表,指向HDFS上的数据。查询Hive表,确认数据已同步。查询Hive表,确认数据已同步。查询Hive表,确认数据已同步。在Hive中创建表并加载数据。
2025-02-05 16:09:01
1421
原创 【starrocks学习】之将hive表数据同步到starrocks
将Hive表数据导出为StarRocks支持的格式,如Parquet或ORC。通过这些步骤,可以将Hive表数据同步到StarRocks。确保Hive和StarRocks都已正确安装并运行。在StarRocks中创建与Hive表结构一致的表。:确保Hive和StarRocks表的数据类型兼容。:确保有足够的权限访问HDFS和StarRocks。查询StarRocks表,确认数据已正确导入。:根据数据量调整导入参数,如并发度和超时时间。使用StarRocks的。
2025-02-05 14:28:03
1545
原创 【starrocks学习】之catalog
StarRocks的Catalog功能是一种数据目录管理工具,用于同时管理和查询内部和外部数据。StarRocks从2.3版本开始支持Catalog功能,允许用户在一个系统中方便地访问和查询存储在各种外部数据源(如HiveIcebergHudiDelta Lake、JDBC)的数据,而无需进行数据导入或迁移。
2025-01-26 17:46:58
1860
原创 【踩坑实录】-pg锁表
当多个事务同时对同一张表进行大量并发更新操作时,容易产生锁争用问题,导致锁表。当对包含索引的表进行更新操作时,数据库需要同时更新索引,这会导致更多的锁争用。一个事务长时间运行而未提交或回滚,会占用大量资源并锁住相关的数据行或表。1.长时间运行的事务。
2025-01-21 16:21:53
1576
原创 修改hdfs路径权限
看报错日志获取到2个信息,一个网络问题,一个是文件权限问题。网络问题重试还是失败,应该不是因为这个,所以要处理文件的权限。shell执行以下命令,${hdfs_path}替换成目标表的文件路径。执行insert overwrite table 报错。
2025-01-20 20:03:41
376
原创 execute sql error: HdfsOrcScanner::do_open failed. reason = Failed to parse the postscript from file
通过hive catalog同步hive表数据到starrocks数据库,结果报错selecterr_msg: error=Error(255): 未知的错误 255, root_cause=GSSException: No valid credentials provided (Mechanism level: Failed to find any Kerberos tgt)
2024-12-18 21:42:46
520
原创 hive:Cannot truncate non-managed table table_name
在hue执行"truncate table db_name.table_name"时报错,报错内容为"Error while compiling statement: FAILED: SemanticException [Error 10146]: Cannot truncate non-managed table db_name.table_name"外部表:hive只管理元数据,hdfs管理实际数据文件,删除表的时候只删除了元数据数据文件还在;hdfs dfs -rm -f 路径/*
2024-12-09 11:33:38
1032
原创 hive_locks字段
HL_LOCK_TYPE: e // 锁类型: e(exclusive), r (shared), w(LOCK_SEMI_SHARED)HL_LOCK_INT_ID: // 一个递增编号,和 HL_LOCK_EXT_ID 组成联合主键。HL_TXNID: // 事务ID。HL_LOCK_EXT_ID: // 锁外部 ID。
2024-10-14 20:30:28
553
1
原创 修复 Mac 上卡住的 CoreServicesUIAgent 验证
关机重启后页面上一直弹窗CoreServicesUIAgent 验证,只能最小化,关不掉,强迫症表示很难受😭。
2024-04-23 11:46:35
2098
原创 pg自定义函数动态生成表名
想在postgres数据库中动态查询【'table_2023'、'table_2024'...】这种格式表的数据。今天是'2023-12-22'号,查询语句为'select * from table_2023';今天是'2024-12-22'号,查询语句为'select * from table_2024';第二种方法,创建新表存储符合格式的所有表union all数据。执行后并不是我想要的结果,查询出来的只是我拼接出来的内容 😭。第一种方法,创建自定义函数查询当年表的数据。
2023-12-22 20:21:34
1200
1
原创 datax报错:No enum constant com.alibaba.datax.plugin.reader.hdfsreader.DFSUtil.Type.BIGINT
使用datax从hive2pg时报错。
2023-12-21 11:43:50
1197
原创 datax-自定义json遇到数据库字段名为关键字
源数据库:pg目标数据库:hive问题:自定义json时因pg表字段中包含desc的字段所以报错。
2023-12-13 15:37:04
1157
原创 Impala删除kudu表时遇到的问题
ps:表名就是报错内容里面提示的(impala::db_name.kudu_table_name),一定不要忘记前面的【impala::】!在IMPALA上面创建了KUDU表之后DROP TABLE了该表,想要重新执行建表语句,但是发现报错了,提示表已存在无法新建。kudu table delete master 主机名 表名。
2023-07-20 15:49:27
1053
原创 dolphinscheduler的switch组件
Switch 是一个条件判断节点,依据全局变量的值和用户所编写的表达式判断结果执行对应分支。注意使用 javax.script.ScriptEngine.eval 执行表达式。需要先配置前置任务;才能在条件中引用上游传递过来的参数值;配置好跟下游任务的依赖关系,符合条件的分支流转才能选到下游任务。
2023-07-03 16:45:13
3091
2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅