自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(159)
  • 资源 (5)
  • 收藏
  • 关注

原创 Azure Data Factory (ADF)‌ 之databricks使用

databricks【笔记本】-【sql】组件中直接使用变量即可。databricks【笔记本】-【python】组件使用参数。实现目标:adf变量及参数传送到databricks使用。(1).adf里新建管道,新建【设置变量】(2).插入【笔记本】设置中添加笔记本路径。新建notebook。

2026-06-05 14:12:42 248

原创 pg dblink使用查询

需要将两个数据库(pg_a/pg_b)下的表在pg里面跨库关联查询。pg_a数据库的table_a表;pg_b数据库的table_b表。数据库类型:postgres。

2026-05-22 17:23:39 33

原创 Azure ADF(Azure Data Factory 数据工厂)学习

Azure Data Factory 是微软 Azure 提供的‌完全托管云数据集成服务‌,主要用于‌自动化数据移动与转换‌(ETL/ELT),帮助用户构建数据驱动的工作流以整合来自不同源的数据。简介资料。

2026-05-22 17:15:27 236

原创 如何将starrocks表的数据存成md格式存储到腾讯cos

客户端连接 StarRocks。

2026-05-06 11:20:35 58

原创 dolphinscheduler 把数据库表内容转成markdown文件

打印变量echo "=====获取数据库返回内容====="# 写入md文件# 查看文件 & 大小echo -e "\n=====文件信息====="

2026-04-27 16:24:02 59

原创 MAC电脑微信无法使用解决全记录

卸载重装一系列操作下仍然无法使用,一气之下暴力卸载了!!!(然后发现还是没有用,关机重启了也不行!!!气鼓鼓~)

2026-03-25 15:26:02 496

原创 FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.tez.TezTask. Application

在增加内存后,应监控系统的性能和资源使用情况,确保没有出现内存溢出等问题。通过上述步骤,你可以有效地增加Hive使用Tez时的内存使用量,从而提高查询性能和系统稳定性。从关键词可知tez引擎发生了问题,那我们就调整一下Tez的配置参数来增加内存使用量。对于Tez的AM和Task,也可以通过设置环境变量来调整JVM的堆内存大小。文件中的参数来增加Tez容器(即YARN中的容器)的内存。例如,要增加单个容器的最大内存为8GB,可以设置。中,可以设置一些参数来控制Tez的内存使用。在YARN中,可以通过调整。

2026-01-05 15:14:21 508

原创 Error: Error while compiling statement: FAILED: ParseException line 1:80 mismatched input ‘-‘ expect

执行shell语句beeline -u "insert overwrite table abc partition(ds=${ds}) select * from table where ds=${ds}" 时,参数配置ds=$[yyyy-MM-dd-1]。

2026-01-05 15:04:03 575

原创 Error: Could not open client transport with JDBC Uri: jdbc:hive2://

如果你的 Hive 设置需要认证(如 Kerberos),确保你的连接字符串包含了正确的认证参数,例如。查看 HiveServer2 的日志和你的应用程序的日志,这可能会提供更多关于为什么连接失败的线索。),并且你的用户有权限访问 Hive 数据库。确保 Hive 配置允许从你的客户端地址连接。确保你的项目中已经正确添加了 Hive JDBC 驱动。对于 Hive,通常使用的是。确认你的应用程序可以访问 Hive 服务器的网络地址和端口。确保你的 JDBC 连接字符串格式正确。

2026-01-05 14:28:44 696

原创 azure配置循环任务

批量执行每月的hive任务。

2025-09-17 12:02:42 383

原创 StarRocks导入数据-使用 Broker Load 进行异步导入

将hive库数据表导入starrocks.

2025-09-10 22:26:34 340

原创 starrocks查询超时异常

执行insert ... select ... from table报错,看异常信息为查询超时。

2025-08-07 14:36:48 357

原创 azure配置管道监控任务

创建了一个管道任务,想要监控每日调度执行情况,如果失败了发送飞书提醒。选失败时执行告警任务。

2025-05-28 16:01:37 303

原创 【pg学习】-账号管理

用户是具有登录权限的角色,默认拥有登录数据库的权限。用户可以执行数据库操作,如查询、插入、更新等‌。

2025-05-28 15:32:34 535

原创 【踩坑实录】-No enum constant com.alibaba.datax.plugin.writer.hdfswriter.SupportHiveDataType.LONG

从报错内容可知是因为枚举值出现了问题,关键词long,可知是数值类型有问题。仔细排查发现是json配置类型有问题,将bigint类型配置成了long。执行datax从pg库同步到hive库时发生报错。--从pg库同步到hive库。--hive同步到pg。

2025-03-20 11:55:33 336

原创 【踩坑实录】-The function STRING takes only primitive types

从翻译内容来看可知是因为字段的数据类型导致的报错,关键信息string说明是string类型的字段有问题。由上可知,是将array<string>类型的数据写入string类型引起的报错。拼接上字符串,成功将array类型转为string,bug解决了~接下来就开始仔细看看我们执行的sql内容了。

2025-03-19 17:53:25 391

原创 pgsql行列转换

‌是PostgreSQL中的一个函数,用于将一个字符串根据正则表达式进行分割,并将结果返回为一个表格,每个分割后的部分作为一行‌‌。string_agg() 函数是 PostgreSQL 中的一个聚合函数,用于将一个列中的值连接成一个字符串。

2025-03-05 16:48:26 3390

原创 【踩坑实录】-Error while compiling statement: FAILED: RuntimeException Unable to instantiate

确保你使用的 Hive 版本与 Hadoop 的版本兼容。不同版本的 Hadoop 可能需要特定版本的 Hive。如果你在使用 Kerberos 或其他安全机制,确保所有相关的安全配置都已正确设置,包括密钥和认证信息。查看 Hive 和 Hadoop 的日志文件,可能会提供更多关于错误原因的详细信息。有时候,JVM 参数(如内存设置)也可能影响 Hive 的启动。:如果使用了远程 metastore,确保这里正确设置了 metastore 的 URI。:确保这里设置了正确的数据仓库目录。

2025-02-24 14:59:42 894

原创 hive开窗函数边界值ROWS BETWEEN 和 RANGE BETWEEN区别

rows:指以行号来决定frame的范围,是物理意义上的行。

2025-02-20 16:32:37 743

原创 【踩坑实录】-Boundary Amount must be a positive integer, provided amount is: 0

在许多编程场景中,边界参数(如数组大小、集合容量等)必须是一个正整数,不能为0或负数。如果参数值为0,程序会抛出。由关键词Window可以知道问题大约是出在开窗函数上面。确保在调用需要正数参数的方法时,传入的参数值大于0。异常,提示边界值必须是正数。

2025-02-17 16:51:24 350

原创 【starrocks学习】之将starrocks表同步到hive

如果StarRocks和Hive都支持Spark访问,可以通过Spark读取StarRocks数据并写入Hive。如果数据量较小,可以先将StarRocks表数据导出为本地文件,再通过Hive的。编写Spark作业,从StarRocks读取数据并写入Hive。在Spark项目中添加StarRocks和Hive的依赖。在Hive中创建一个外部表,指向HDFS上的数据。查询Hive表,确认数据已同步。查询Hive表,确认数据已同步。查询Hive表,确认数据已同步。在Hive中创建表并加载数据。

2025-02-05 16:09:01 1421

原创 【starrocks学习】之将hive表数据同步到starrocks

将Hive表数据导出为StarRocks支持的格式,如Parquet或ORC。通过这些步骤,可以将Hive表数据同步到StarRocks。确保Hive和StarRocks都已正确安装并运行。在StarRocks中创建与Hive表结构一致的表。:确保Hive和StarRocks表的数据类型兼容。:确保有足够的权限访问HDFS和StarRocks。查询StarRocks表,确认数据已正确导入。:根据数据量调整导入参数,如并发度和超时时间。使用StarRocks的。

2025-02-05 14:28:03 1545

原创 【starrocks学习】之catalog

‌StarRocks的Catalog功能‌是一种数据目录管理工具,用于同时管理和查询内部和外部数据。StarRocks从2.3版本开始支持Catalog功能,允许用户在一个系统中方便地访问和查询存储在各种外部数据源(如HiveIcebergHudiDelta Lake、JDBC)的数据,而无需进行数据导入或迁移‌。

2025-01-26 17:46:58 1860

原创 【踩坑实录】-pg锁表

当多个事务同时对同一张表进行大量并发更新操作时,容易产生锁争用问题,导致锁表。当对包含索引的表进行更新操作时,数据库需要同时更新索引,这会导致更多的锁争用。一个事务长时间运行而未提交或回滚,会占用大量资源并锁住相关的数据行或表。1.长时间运行的事务。

2025-01-21 16:21:53 1576

原创 修改hdfs路径权限

看报错日志获取到2个信息,一个网络问题,一个是文件权限问题。网络问题重试还是失败,应该不是因为这个,所以要处理文件的权限。shell执行以下命令,${hdfs_path}替换成目标表的文件路径。执行insert overwrite table 报错。

2025-01-20 20:03:41 376

原创 execute sql error: HdfsOrcScanner::do_open failed. reason = Failed to parse the postscript from file

通过hive catalog同步hive表数据到starrocks数据库,结果报错selecterr_msg: error=Error(255): 未知的错误 255, root_cause=GSSException: No valid credentials provided (Mechanism level: Failed to find any Kerberos tgt)

2024-12-18 21:42:46 520

原创 hive:Cannot truncate non-managed table table_name

在hue执行"truncate table db_name.table_name"时报错,报错内容为"Error while compiling statement: FAILED: SemanticException [Error 10146]: Cannot truncate non-managed table db_name.table_name"外部表:hive只管理元数据,hdfs管理实际数据文件,删除表的时候只删除了元数据数据文件还在;hdfs dfs -rm -f 路径/*

2024-12-09 11:33:38 1032

原创 hive将包含逗号的字段拆分为多列

想将hive表中包含逗号的字段按逗号做分隔符进行分列操作。

2024-10-31 20:36:17 1269

原创 hive_locks字段

HL_LOCK_TYPE: e // 锁类型: e(exclusive), r (shared), w(LOCK_SEMI_SHARED)HL_LOCK_INT_ID: // 一个递增编号,和 HL_LOCK_EXT_ID 组成联合主键。HL_TXNID: // 事务ID。HL_LOCK_EXT_ID: // 锁外部 ID。

2024-10-14 20:30:28 553 1

原创 pg跨库查询

不同库的数据表想要关联查询,但是pg不支持跨库查询。

2024-09-11 17:36:07 616

原创 hive时间函数

查询。

2024-09-09 15:42:20 516

原创 beeline -e 执行SQL中有双引号

beeline -e 执行SQL中有双引号 害怕执行报错。

2024-08-02 17:53:54 537 2

原创 修复 Mac 上卡住的 CoreServicesUIAgent 验证

关机重启后页面上一直弹窗CoreServicesUIAgent 验证,只能最小化,关不掉,强迫症表示很难受😭。

2024-04-23 11:46:35 2098

原创 DataArts Studio数据治理中心(原DGC)数据开发流程

数据开发流程

2024-04-16 16:20:07 819

原创 数据治理中心DataArts Studio学习

DataArts Studio学习

2024-04-15 16:13:28 2393 1

原创 pg自定义函数动态生成表名

想在postgres数据库中动态查询【'table_2023'、'table_2024'...】这种格式表的数据。今天是'2023-12-22'号,查询语句为'select * from table_2023';今天是'2024-12-22'号,查询语句为'select * from table_2024';第二种方法,创建新表存储符合格式的所有表union all数据。执行后并不是我想要的结果,查询出来的只是我拼接出来的内容 😭。第一种方法,创建自定义函数查询当年表的数据。

2023-12-22 20:21:34 1200 1

原创 datax报错:No enum constant com.alibaba.datax.plugin.reader.hdfsreader.DFSUtil.Type.BIGINT

使用datax从hive2pg时报错。

2023-12-21 11:43:50 1197

原创 datax-自定义json遇到数据库字段名为关键字

源数据库:pg目标数据库:hive问题:自定义json时因pg表字段中包含desc的字段所以报错。

2023-12-13 15:37:04 1157

原创 Impala删除kudu表时遇到的问题

ps:表名就是报错内容里面提示的(impala::db_name.kudu_table_name),一定不要忘记前面的【impala::】!在IMPALA上面创建了KUDU表之后DROP TABLE了该表,想要重新执行建表语句,但是发现报错了,提示表已存在无法新建。kudu table delete master 主机名 表名。

2023-07-20 15:49:27 1053

原创 dolphinscheduler的switch组件

Switch 是一个条件判断节点,依据全局变量的值和用户所编写的表达式判断结果执行对应分支。注意使用 javax.script.ScriptEngine.eval 执行表达式。需要先配置前置任务;才能在条件中引用上游传递过来的参数值;配置好跟下游任务的依赖关系,符合条件的分支流转才能选到下游任务。

2023-07-03 16:45:13 3091 2

大数据性能优化.pptx

包含hadoop架构及介绍。大数据性能优化,sql优化,mr调优等。每个优化方法都有实际案例说明,小白也可以看懂的哟!

2020-07-26

atlas配置hive hook

atlas配置hive hook

2022-09-06

标准化-数仓建模设计原则及案例讲解

标准化-数仓建模设计原则及案例讲解,包含维度建模、范式建模、data value

2022-08-12

标准化-数据开发规范文档

标准化-数据开发规范文档,主要包含层级调用规范、命名规范、etl开发规范、清洗规范、加密脱敏规范、迭代规范等

2022-08-12

标准化-数据交付流程参考

标准化-数据中台交付流程

2022-08-08

数据仓库/数据治理面试经验总结

数仓面试经验总结

2022-07-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除