- 博客(153)
- 资源 (5)
- 收藏
- 关注
原创 FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.tez.TezTask. Application
在增加内存后,应监控系统的性能和资源使用情况,确保没有出现内存溢出等问题。通过上述步骤,你可以有效地增加Hive使用Tez时的内存使用量,从而提高查询性能和系统稳定性。从关键词可知tez引擎发生了问题,那我们就调整一下Tez的配置参数来增加内存使用量。对于Tez的AM和Task,也可以通过设置环境变量来调整JVM的堆内存大小。文件中的参数来增加Tez容器(即YARN中的容器)的内存。例如,要增加单个容器的最大内存为8GB,可以设置。中,可以设置一些参数来控制Tez的内存使用。在YARN中,可以通过调整。
2026-01-05 15:14:21
356
原创 Error: Error while compiling statement: FAILED: ParseException line 1:80 mismatched input ‘-‘ expect
执行shell语句beeline -u "insert overwrite table abc partition(ds=${ds}) select * from table where ds=${ds}" 时,参数配置ds=$[yyyy-MM-dd-1]。
2026-01-05 15:04:03
465
原创 Error: Could not open client transport with JDBC Uri: jdbc:hive2://
如果你的 Hive 设置需要认证(如 Kerberos),确保你的连接字符串包含了正确的认证参数,例如。查看 HiveServer2 的日志和你的应用程序的日志,这可能会提供更多关于为什么连接失败的线索。),并且你的用户有权限访问 Hive 数据库。确保 Hive 配置允许从你的客户端地址连接。确保你的项目中已经正确添加了 Hive JDBC 驱动。对于 Hive,通常使用的是。确认你的应用程序可以访问 Hive 服务器的网络地址和端口。确保你的 JDBC 连接字符串格式正确。
2026-01-05 14:28:44
606
原创 【踩坑实录】-No enum constant com.alibaba.datax.plugin.writer.hdfswriter.SupportHiveDataType.LONG
从报错内容可知是因为枚举值出现了问题,关键词long,可知是数值类型有问题。仔细排查发现是json配置类型有问题,将bigint类型配置成了long。执行datax从pg库同步到hive库时发生报错。--从pg库同步到hive库。--hive同步到pg。
2025-03-20 11:55:33
289
原创 【踩坑实录】-The function STRING takes only primitive types
从翻译内容来看可知是因为字段的数据类型导致的报错,关键信息string说明是string类型的字段有问题。由上可知,是将array<string>类型的数据写入string类型引起的报错。拼接上字符串,成功将array类型转为string,bug解决了~接下来就开始仔细看看我们执行的sql内容了。
2025-03-19 17:53:25
357
原创 pgsql行列转换
是PostgreSQL中的一个函数,用于将一个字符串根据正则表达式进行分割,并将结果返回为一个表格,每个分割后的部分作为一行。string_agg() 函数是 PostgreSQL 中的一个聚合函数,用于将一个列中的值连接成一个字符串。
2025-03-05 16:48:26
3099
原创 【踩坑实录】-Error while compiling statement: FAILED: RuntimeException Unable to instantiate
确保你使用的 Hive 版本与 Hadoop 的版本兼容。不同版本的 Hadoop 可能需要特定版本的 Hive。如果你在使用 Kerberos 或其他安全机制,确保所有相关的安全配置都已正确设置,包括密钥和认证信息。查看 Hive 和 Hadoop 的日志文件,可能会提供更多关于错误原因的详细信息。有时候,JVM 参数(如内存设置)也可能影响 Hive 的启动。:如果使用了远程 metastore,确保这里正确设置了 metastore 的 URI。:确保这里设置了正确的数据仓库目录。
2025-02-24 14:59:42
831
原创 【踩坑实录】-Boundary Amount must be a positive integer, provided amount is: 0
在许多编程场景中,边界参数(如数组大小、集合容量等)必须是一个正整数,不能为0或负数。如果参数值为0,程序会抛出。由关键词Window可以知道问题大约是出在开窗函数上面。确保在调用需要正数参数的方法时,传入的参数值大于0。异常,提示边界值必须是正数。
2025-02-17 16:51:24
319
原创 【starrocks学习】之将starrocks表同步到hive
如果StarRocks和Hive都支持Spark访问,可以通过Spark读取StarRocks数据并写入Hive。如果数据量较小,可以先将StarRocks表数据导出为本地文件,再通过Hive的。编写Spark作业,从StarRocks读取数据并写入Hive。在Spark项目中添加StarRocks和Hive的依赖。在Hive中创建一个外部表,指向HDFS上的数据。查询Hive表,确认数据已同步。查询Hive表,确认数据已同步。查询Hive表,确认数据已同步。在Hive中创建表并加载数据。
2025-02-05 16:09:01
1305
原创 【starrocks学习】之将hive表数据同步到starrocks
将Hive表数据导出为StarRocks支持的格式,如Parquet或ORC。通过这些步骤,可以将Hive表数据同步到StarRocks。确保Hive和StarRocks都已正确安装并运行。在StarRocks中创建与Hive表结构一致的表。:确保Hive和StarRocks表的数据类型兼容。:确保有足够的权限访问HDFS和StarRocks。查询StarRocks表,确认数据已正确导入。:根据数据量调整导入参数,如并发度和超时时间。使用StarRocks的。
2025-02-05 14:28:03
1422
原创 【starrocks学习】之catalog
StarRocks的Catalog功能是一种数据目录管理工具,用于同时管理和查询内部和外部数据。StarRocks从2.3版本开始支持Catalog功能,允许用户在一个系统中方便地访问和查询存储在各种外部数据源(如HiveIcebergHudiDelta Lake、JDBC)的数据,而无需进行数据导入或迁移。
2025-01-26 17:46:58
1710
原创 【踩坑实录】-pg锁表
当多个事务同时对同一张表进行大量并发更新操作时,容易产生锁争用问题,导致锁表。当对包含索引的表进行更新操作时,数据库需要同时更新索引,这会导致更多的锁争用。一个事务长时间运行而未提交或回滚,会占用大量资源并锁住相关的数据行或表。1.长时间运行的事务。
2025-01-21 16:21:53
1464
原创 修改hdfs路径权限
看报错日志获取到2个信息,一个网络问题,一个是文件权限问题。网络问题重试还是失败,应该不是因为这个,所以要处理文件的权限。shell执行以下命令,${hdfs_path}替换成目标表的文件路径。执行insert overwrite table 报错。
2025-01-20 20:03:41
343
原创 execute sql error: HdfsOrcScanner::do_open failed. reason = Failed to parse the postscript from file
通过hive catalog同步hive表数据到starrocks数据库,结果报错selecterr_msg: error=Error(255): 未知的错误 255, root_cause=GSSException: No valid credentials provided (Mechanism level: Failed to find any Kerberos tgt)
2024-12-18 21:42:46
476
原创 hive:Cannot truncate non-managed table table_name
在hue执行"truncate table db_name.table_name"时报错,报错内容为"Error while compiling statement: FAILED: SemanticException [Error 10146]: Cannot truncate non-managed table db_name.table_name"外部表:hive只管理元数据,hdfs管理实际数据文件,删除表的时候只删除了元数据数据文件还在;hdfs dfs -rm -f 路径/*
2024-12-09 11:33:38
975
原创 hive_locks字段
HL_LOCK_TYPE: e // 锁类型: e(exclusive), r (shared), w(LOCK_SEMI_SHARED)HL_LOCK_INT_ID: // 一个递增编号,和 HL_LOCK_EXT_ID 组成联合主键。HL_TXNID: // 事务ID。HL_LOCK_EXT_ID: // 锁外部 ID。
2024-10-14 20:30:28
507
1
原创 修复 Mac 上卡住的 CoreServicesUIAgent 验证
关机重启后页面上一直弹窗CoreServicesUIAgent 验证,只能最小化,关不掉,强迫症表示很难受😭。
2024-04-23 11:46:35
1956
原创 pg自定义函数动态生成表名
想在postgres数据库中动态查询【'table_2023'、'table_2024'...】这种格式表的数据。今天是'2023-12-22'号,查询语句为'select * from table_2023';今天是'2024-12-22'号,查询语句为'select * from table_2024';第二种方法,创建新表存储符合格式的所有表union all数据。执行后并不是我想要的结果,查询出来的只是我拼接出来的内容 😭。第一种方法,创建自定义函数查询当年表的数据。
2023-12-22 20:21:34
1152
1
原创 datax报错:No enum constant com.alibaba.datax.plugin.reader.hdfsreader.DFSUtil.Type.BIGINT
使用datax从hive2pg时报错。
2023-12-21 11:43:50
1154
原创 datax-自定义json遇到数据库字段名为关键字
源数据库:pg目标数据库:hive问题:自定义json时因pg表字段中包含desc的字段所以报错。
2023-12-13 15:37:04
1125
原创 Impala删除kudu表时遇到的问题
ps:表名就是报错内容里面提示的(impala::db_name.kudu_table_name),一定不要忘记前面的【impala::】!在IMPALA上面创建了KUDU表之后DROP TABLE了该表,想要重新执行建表语句,但是发现报错了,提示表已存在无法新建。kudu table delete master 主机名 表名。
2023-07-20 15:49:27
1017
原创 dolphinscheduler的switch组件
Switch 是一个条件判断节点,依据全局变量的值和用户所编写的表达式判断结果执行对应分支。注意使用 javax.script.ScriptEngine.eval 执行表达式。需要先配置前置任务;才能在条件中引用上游传递过来的参数值;配置好跟下游任务的依赖关系,符合条件的分支流转才能选到下游任务。
2023-07-03 16:45:13
2907
2
原创 您的配置文件中的列配置信息有误. 因为DataX 不支持数据库写入这种字段类型. 字段名:[xx], 字段类型:[1111], 字段Java类型:[jsonb].
Description:[不支持的数据库类型. 请注意查看 DataX 已经支持的数据库类型以及数据库版本.]. - 您的配置文件中的列配置信息有误. 因为DataX 不支持数据库写入这种字段类型. 字段名:[xx], 字段类型:[1111], 字段Java类型:[jsonb]. 请修改表中该字段的类型或者不同步该字段.从报错信息中可知是source端出了问题,赶紧检查了一下表结构字段类型,发现hive端该字段类型为STRING,pg端字段类型为jsonb,正常不应该出现问题的啊。
2023-06-26 11:48:03
2017
2
原创 RPC(Remote Procedure Call)学习
首先,调用进程发送一个有进程参数的调用信息到服务进程,然后等待应答信息。当一个调用信息到达,服务器获得进程参数,计算结果,发送答复信息,然后等待下一个调用信息,最后,RPC 全称是 Remote Procedure Call (远程过程调用),它是一种通过网络从远程计算机程序上请求服务,可以提供终结点映射程序以及RPC服务,而不需要了解底层网络技术的协议,是windows系统三大服务之一。的存在,如TCP或UDP,为通信程序之间携带信息数据。调用过程接收答复信息,获得进程结果,然后调用执行继续进行。
2023-06-21 16:12:41
509
原创 FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.tez.TezTask
这个报错的原因可能就比较多了,有可能是因为JOB太大集群资源不够;HDFS目录权限不够,执行SQL时需要创建目录;引擎故障(tez引擎出现问题);自定义函数,jar包问题等。这个报错的原因是Java以jdbc方式直接操作hive,但是先关闭了连接,导致后面的操作无法执行了。使用dolphinscheduler工具执行HIVE SQL报错。本次我只是报错后重跑一下就成功了,所以目测是因为集群资源问题导致。(实在不行重启数据库,解决99%的问题😄)
2023-06-21 11:18:30
1790
3
原创 Apache Kafka学习
Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。Kafka是一种消息队列,主要用来处理大量数据状态下的消息队列,一般用来做日志的处理。官方中文文档Kafka 中文文档 - ApacheCN1.Kafka作为一个集群,运行在一台或者多台服务器上2.Kafka 通过topic对存储的流数据进行分类。
2023-06-13 16:00:14
1631
原创 Apache Kudu入门学习
范围分区的分区方式将数据按照范围进行分类,每个partition会分配一个固定的范围,每个数据只会属于一个分区,不同的partition的范围不能有重叠,分区在表的创建阶段配置,后续不可修改,但是可以删除和新增,如果数据找不到所属的分区将会插入失败。数据的写入会被均匀的分散到各个 tablet 中,写入速度快。故障自动检测和自我修复:为了保持数据的高可用性,系统会检测故障的 Tablet 副本并从可用的副本中重新复制数据,因此当集群中有足够的 Tablet Server 可用时,会自动替换故障的副本。
2023-06-02 15:25:34
832
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅