QianBase/EsgynDB诊断
QianBase/EsgynDB/Trafodion问题诊断
数据源的港湾
这个作者很懒,什么都没留下…
展开
-
EsgynDB Troubleshooting - ERROR[2012] Server process tdm_arkesp could not becreated
monitor启动的进程数超过这个值时,就会报2012错误,同时,monitor日志中会打印 [CExtNewProcReq::performRequest], Unsuccessful, MAX_PROCESSES limit!esp是由monitor启动的,而monitor启动的进程总数是有限制的,是由内部的宏。由于代码中对进程个数有硬性限制,需要考虑kill部分进程,如ESP进程。限制的,这个值是2048,目前这个值在代码中是硬编码的,外部无法修改。......原创 2022-08-09 14:23:29 · 184 阅读 · 0 评论 -
EsgynDB Troubleshooting - 网卡MTU导致跨网段访问数据库失败
大部分网络设备的MTU都是1500,如果本机的MTU比网关的MTU大,大的数据包就会被拆开来传送,这样会产生很多数据包碎片,增加丢包率,降低网络速度。把本机的MTU设成比网关的MTU小或相同,就可以减少丢包。查询发现客户端的MTU值和集群服务器的MTU值设置为9000,而网关的MTU值为1500,导致网络传输丢包严重。设置:echo “1500” > /sys/class/net/eth0/mtu。查看:cat /sys/class/net/eth0/mtu。查看当前MTU值:ifconfig eth0。.原创 2022-08-04 10:00:28 · 309 阅读 · 0 评论 -
EsgynDB Troubleshooting - python脚本执行备份导出卡住的问题
EsgynDB数据库中使用DBManager可视化工具通过调用python脚本的方式来执行备份导出的任务。在数据库节点的cds目录下有相关备份恢复的执行脚本如edb_br_action.py。此脚本正常情况下均运行正常,但在个别运行很久的环境中,我们偶尔发现脚本会有执行卡住的问题。通过在脚本中关键位置中增加日志,我们定位到脚本卡在了以下语句:p = subprocess.Popen(sqlci_cmd, stdin=subprocess.PIPE, stdout=subprocess.PIPE, st原创 2022-03-28 17:02:05 · 1620 阅读 · 0 评论 -
EsgynDB Troubleshooting-ERROR[8837] Internal error occurred.
现象某环境突然发现连接不上数据库,使用JDBC或trafci连接数据库报错如下:*** ERROR[8837] Internal error occurred. User: XXX分析报错ERROR[8837] Internal error occurred.一般是数据库与LDAP连接认证出现问题。所以遇到此报错后,第一点我们可以使用ldapcheck命令检查是否能正常从ldap中查询到数据库用户,命令为:ldapcheck --username=trafodion如果以上命令返回resu原创 2022-03-16 10:10:35 · 1246 阅读 · 0 评论 -
管理节点更换磁盘导致JournalNode同步问题
现象集群配置了NameNode HA,突然发生一台NameNode节点所在的数据盘如/data1磁盘故障需要更换磁盘,原来的磁盘下面的目录将都不可用。/data1目录下面的主要目录为dfs目录,更换磁盘并启动hadoop相关服务后,我们发现dfs目录自动创建dfs/dn、dfs/jn及dfs/nn都已经创建,但HDFS仍然不正常,具体为更换磁盘节点的NameNode服务及JournalNode服务异常,如下图所示解决方案出现此问题,是因为更换了磁盘后dfs/jn目录下没有VERSION文件用来原创 2020-10-07 11:49:26 · 963 阅读 · 0 评论 -
EsgynDB schema不存在但get schemas仍然显示
现象在某些特殊情况下,我们已经清除了schema,但get schemas仍然存在,使用drop schema或cleanup schema均提示schema已经不存在,如下述步骤所示,SQL>get schemas;Schemas in Catalog TRAFODION============================ AFA_LTAFA_SITSEABASE_LIBMGR__MD__PRIVMGR_MD__REPOS_=====================原创 2020-07-25 15:46:56 · 603 阅读 · 0 评论 -
EsgynDB delete报错org.apache.hadoop.hbase.exceptions.OutOfOrderScannerNextException
现象当表行宽较大时,批量删除数据或者插入数据可能会报错org.apache.hadoop.hbase.exceptions.OutOfOrderScannerNextException,典型的错误场景如下,SQL>delete from TE_JZYY_TRADEDATA where TRANDATE <'20240101';*** ERROR[8448] Unable to access Hbase interface. Call to ExpHbaseInterface::nextRo原创 2020-07-13 20:04:44 · 641 阅读 · 0 评论 -
HBase FullGC导致RegionServer宕机
现象HBase的某台RegionServer发生了Full GC,导致了RegionServer宕机,主要日志如下2020-07-09 20:23:44,610 WARN org.apache.hadoop.hbase.util.JvmPauseMonitor: Detected pause in JVM or host machine (eg GC): pause of approximately 35202msGC pool 'G1 Young Generation' had collection原创 2020-07-10 10:16:10 · 1132 阅读 · 1 评论 -
HBase Balancer失败日志报错 ERROR org.apache.hadoop.hbase.regionserver.handler.OpenRegionHandler
现象HBase shell下面打开Balance并手动执行Balancer很快结束,显示为false(此时balance_switch为true)hbase(main):007:0* balancerfalse 查看RegionServer日志有如下报错信息,2020-07-08 16:49:01,821 INFO org.apache.hadoop.hbase.coordination.ZkOpenRegionCoordination: Opening of region {ENCODED原创 2020-07-09 09:19:59 · 1077 阅读 · 1 评论 -
OpenLDAP使用ldapadd手动添加用户
OpenLDAP可以通过类似于OpenLDAPAdmin的基于WEB的管理工具在LDAP中界面化的添加用户,但有时候环境中没有准备这样的WEB工具,我们也可以使用命令的方式添加用户,主要步骤为:手动创建并编辑ldif文件,内容如下,假设添加的LDAP用户名称为readafadn: uid=readafa,ou=Users,dc=esgyn,dc=localou: Usersuid: readafasn: readafacn: readafagivenName: readafadispla原创 2020-07-07 14:33:24 · 8783 阅读 · 0 评论 -
HBase Master启动报错java.io.IOException: error or interrupted while splitting logs
今天在一个CDH环境中启动HBase时HBase Master启动发生异常,HBase Master采用的是两台HMaster做一个HA。从CDH管理界面查询启动成功后,HBase Master状态并不太正常(如下图所示),以上截图看似正常,实质不正常。正常情况下两个HMaster主备可用时,Master后面应该有一个标识是活动还是备份的状态,但上面图片中缺少状态信息。于是查看两个HMaster日志,其中一台HBase Master日志信息正常,另外一台HBase Master日志一直在刷SplitL原创 2020-06-20 20:56:07 · 2565 阅读 · 2 评论 -
EsgynDB 清理不一致对象
EsgynDB中每个对象主要由于底层的HBase对象和上层的元数据组合,把一个Key-Value格式的HBase对象可以映射成为二维的关系型的表。目前EsgynDB是可能会有某些异常场景下会导致底层的HBase对象和上层的元数据之间匹配异常,这可能主要有以下几种情况,1、HBase对象存在,元数据坏了。2、元数据正常,HBase对象坏了。3、元数据和HBase对象都坏了。我们可以分别从EsgynDB层面和HBase层面来验证检查是元数据出现问题还是底层HBase对象出现问题。如果在EsgynDB原创 2020-06-06 15:50:07 · 342 阅读 · 0 评论 -
HDFS启动报错Expected to be able to read up until at least txid but unable to find any edit logs
现象Hadoop集群出现了异常断电后,HDFS启动报错,报错信息截图如下,解决Hadoop NN中的元数据包括:fsimage:包含某个时间点的文件系统的完整状态edit logs:包含在最近的fsimage之后进行的每个文件系统更改(文件创建/删除/修改)。当NN启动时,Hadoop将加载fsimage并应用所有编辑日志,同时进行大量的一致性检查,如果检查失败,它将中止。当我们将NN工作区中的edits_0000000000000000001-0000000000000000002 删掉时,原创 2020-06-02 18:19:40 · 1212 阅读 · 0 评论 -
Trafodion Troubleshooting-清空表报错ERROR[1034] Unable to obtain privileges
现象Trafodion中可以使用TRUNCATE或PURGEDATA命令进行表的清空操作,某些异常情况下清空表时会报错没有权限,*** ERROR[1034] Unable to obtain privileges.解决TRUNCATE之前添加两个CQD,cqd TRAF_RELOAD_NATABLE_CACHE 'on';cqd query_cache '0';...原创 2020-04-02 14:36:20 · 324 阅读 · 0 评论 -
Trafodion Troubleshooting-java.lang.Out OfMemoryError: unable to create new native thread
现象EsgynDB节点的sql日志中报错java.lang.Out OfMemoryError: unable to create new native thread,具体信息如下,2020-03-27 23:22:28,910, ERROR, SQL.EXE, Node Number: 0, CPU: 0, PIN: 45539, Process Name: $Z0000001DG3,,,J...原创 2020-03-30 16:32:39 · 467 阅读 · 0 评论 -
EsgynDB 使用JDBC UDR访问远程Trafodion的几个问题小结
在前面的文章Trafodion 通过TMUDF访问远程Oracle数据库中我们介绍如何通过TMUDF访问来访问远程数据库,如Oracle、MySQL乃至于远程的Trafodion数据库。凑巧今天在一个环境中需要使用TMUDF来访问远程Trafodion数据库,并在使用过程中遇到了几个小问题,以下我们描述几个问题及解决方案,供大家后续遇到问题时参考使用。问题一:带多租户的远程访问报错信息:te...原创 2020-03-30 16:06:15 · 652 阅读 · 2 评论 -
Trafodion Troubleshooting-java.io.IOException: delete late checkin for transaction xxx
现象在Trafodion数据库中做批量删除时,执行时长超过2小时后报错如下,>>delete from test_delete where a>100;*** WARNING[6008] Statistics for column (A) from table TRAFODION.SEABASE.TEST_DELETE were not available. As a r...原创 2020-02-08 17:00:13 · 402 阅读 · 0 评论 -
Trafodion Troubleshooting- Object has invalid state and cannot be accessed
现象当表做truncate发现异常中断时,表可能会处于一种中间状态,再查询表时可能会报表处于invalid state的错误。解决Truncate操作内部会执行一系列过程:包括修改元数据信息、禁用底层HBase表、删除底层HBase表等。Truncate是一个DDL操作,目前由于异常中断可能造成某些步骤没有回滚,导致表的状态异常。如果底层HBase表正常,则我们只需要改写元数据信息的v...原创 2020-01-10 18:15:28 · 563 阅读 · 1 评论 -
EsgynDB Troubleshooting- NodeExists for /trafodion/recovery/LOCK/SnapshotMetaLock
现象EsgynDB中创建带增量备份的表, 出现长时间不结束的现象。DTM日志中有报错如下,分析表带增量备份属性,建表时有一个额外的snapshot动作,此动作执行时会在zookeeper中临时注释一个znode节点,其他建表动作若要完成需要等待此LOCK结束。解决从zookeeper-client中删除节点/trafodion/recovery/LOCK/SnapshotMetaLo...原创 2020-01-10 16:26:27 · 424 阅读 · 0 评论 -
EsgynDB Troubleshooting-Transaction subsystem TMF returned error 82 while starting a transaction
现象数据库执行相关命令,只要跟事务相关的均报错ERROR [8604],如执行BEGIN WORK报错信息为:ERROR [8604] Transaction subsystem TMF returned error 82 while starting a transaction分析错误信息判断与TM进程有关。ERROR 82表示数据库TM服务未正常启动,FETMFNOTRUNNING...原创 2020-01-09 11:59:07 · 490 阅读 · 0 评论 -
EsgynDB Troubleshooting-java.io.IOException: java.util.NoSuchElementException
现象EsgynDB在做版本升级以后,发现无法查看backup tag,报错信息如下,SQL>get all backup tags;*** ERROR[5050] GET BACKUP TAGS command could not be completed. Reason: Error returned during list all backups. See next error ...原创 2020-01-02 15:32:53 · 507 阅读 · 0 评论 -
Trafodion Troubleshooting-Failed to replace a bad datanode on the existing pipeline
现象安装EsgynDB在单个节点,在数据库初始化过程中报错,错误内容如下,Create Library Manager: Started*** ERROR[8458] Unable to access ExpLOBInterfaceInsert interface after retry. Call to ExpLOBInterfaceInsert returned error LOB_D...原创 2019-12-28 10:54:41 · 471 阅读 · 0 评论 -
Trafodion Troubleshooting-failed because A clone should not have regions to restore
现象在HBase中做RESTORE_SNAPSHOT时报错,hbase(main):022:0* restore_snapshot 'RLZYGLXT_FILE_snapshot'ERROR: org.apache.hadoop.hbase.snapshot.RestoreSnapshotException: clone snapshot={ ss=RLZYGLXT_FILE_snapsh...原创 2019-12-12 12:24:11 · 716 阅读 · 0 评论 -
Trafodion Troubleshooting-org.apache.hadoop.hbase.exceptions.OutOfOrderScannerNextException
现象使用INSERT或UPSERT插入表报以下错误,但UPSERT USING LOAD或LOAD INTO则执行成功。*** ERROR[8448] Unable to access Hbase interface. Call to ExpHbaseInterface::nextRow returned error HBASE_ACCESS_ERROR(-706). Cause: java....原创 2019-11-25 12:20:59 · 590 阅读 · 0 评论 -
EsgynDB 升级CDH从5.13.3到5.16.2后导致HBase启不来的问题排查
最近在项目测试中需要把CDH从5.13.3升级到5.16.2,升级过程中比较顺利,但是升级后HBase Master总是过一小会儿就出问题,HBase有两个Master,一主一备,正常情况下,查看HBase实例时应该是显示一个Master(主)和一个Master(备),但升级后看到主备状态,Region也无法OPEN,过一段时间后HBase Master出现异常,如下图所示:虽然看似状态正常,...原创 2019-11-04 17:01:42 · 681 阅读 · 0 评论 -
Linux OpenLAP 修改max open files
默认安装OpenLDAP,其max open files个数太小,设置为1024.[root@HXnode01 limits.d]# ps -ef | grep slpad root 357137 351442 0 13:49 pts/2 00:00:00 grep --color=auto slpad[root@HXnode01 limits.d]# ps -ef ...原创 2019-07-15 13:58:51 · 964 阅读 · 0 评论 -
EsgynDB Troubleshooting-Snapshot metadata is currently locked
现象EsgynDB中做备份还原的时候报错“Snapshot metadata is currently locked for Tag”,>>RESTORE TRAFODION, TAG 'full4backup_00212429333584910646';*** ERROR[5050] RESTORE command could not be completed. Reason...原创 2019-07-11 13:12:50 · 252 阅读 · 0 评论 -
EsgynDB Troubleshooting-*** ERROR[8837] Internal error occurred.
现象trafci或JDBC连接数据库突然出现卡顿的现象,卡顿之后报错*** ERROR[8837] Internal error occurred.,[trafodion@uatzf04 scripts]$ trafciWelcome to QianBase Command Interface Copyright (c) 2015-2019 Esgyn CorporationHost...原创 2019-07-29 16:50:36 · 453 阅读 · 0 评论 -
EsgynDB Troubleshooting-Problem binding to /0.0.0.0:60020 : Address already in use.
现象EsgynDB所在的集群,HBase有4台RegionServer,因某种原因有一个RegionServer下线。从CDH Manager中手动启动此RegionServer无法启动,报错信息如下,2019-08-03 10:40:48,501 ERROR org.apache.hadoop.hbase.regionserver.HRegionServerCommandLine: Reg...原创 2019-08-03 15:40:59 · 922 阅读 · 0 评论 -
记一次OBJECTS元数据表处于RIT的解决办法
最近一客户环境由于Hadoop故障,恢复时出现“_MD_".OBJECTS处于RIT状态,且长期不能恢复。使用Trafodion用户执行HBCHECK输出如下,HBase is available!HBase version: 1.1.2.2.4.3.0-227HMaster: namenode-2.esg.local,16000,1568772195966Number of Regi...原创 2019-09-19 20:45:50 · 467 阅读 · 0 评论 -
Trafodion 执行SQL文本编码格式问题
现象Trafodion在使用trafci.sh -s xxx.sql或sqlci -i xxx.sql执行一个SQL脚本时,报无法识别^M的错误。原因这个问题一般发生在SQL脚本文件是从Windows上面编辑并传输到Linux环境中发生,由于Windows与Linux的编码方式不一致导致。解决使用file命令查看文件的编码,[trafodion@esgyn01 ~]$file dehz...原创 2018-10-16 10:02:17 · 676 阅读 · 0 评论 -
Trafodion Troubleshooting-NotServingRegionException region is not online
现象Trafodion有时候在做SQL查询时会报NotServingRegionException错误,如下SQLException: *** ERROR[8448] Unable to access Hbase interface. Call to ExpHbaseInterface::insertRows returned error HBASE_ACCESS_ERROR(-706). Cau原创 2017-06-27 17:39:48 · 1068 阅读 · 0 评论 -
EsgynDB Troubleshooting-Backup already exists
现象EsgynDB中做备份集import导入的时候报错“Backup full20190702_00212428826064850102 already exists”,SQL>import backup from location 'hdfs://172.31.234.16:8020/tmp/fulldb12parallel',tag 'full20190702_00212428826...原创 2019-07-04 14:59:53 · 433 阅读 · 0 评论 -
EsgynDB Troubleshooting-Backup location is invalid
现象EsgynDB在做备份集import的时候报错“Backup location is invalid”,具体错误信息如下,SQL>import backup from location 'hdfs://172.31.234.16:8020/tmp/fulldb12parallel',tag 'full1133';*** ERROR[5050] IMPORT BACKUP comm...原创 2019-07-04 14:51:20 · 251 阅读 · 0 评论 -
EsgynDB Troubleshooting-ImportError: No module named crontab
现象EsgynDB数据库安装完成后,EsgynDB Manager管理器中的备份/还原模块报以下错误,Failed to get schedules :, Reason : Traceback (most recent call last): File "/opt/trafodion/esgyndb/sql/scripts/edb_cron_scheduler.py", line 16, ...原创 2019-07-13 17:28:15 · 366 阅读 · 0 评论 -
Trafodion Troubleshooting-Could not instantiate a region instance
现象今天社区有位同学在用Ambari安装Trafodion成功后,使用sqstart启动Trafodion死活启不来,通过日志发现tm_xxx.log里面有如下错误信息,java.lang.IllegalStateException: Could not instantiate a region instance.sun.reflect.NativeConstructorAccessorImpl.n原创 2017-10-12 17:58:01 · 822 阅读 · 0 评论 -
Trafodion Troubleshooting-java.io.IOException: createTable exception
现象今天有位用户在Trafodion数据库中对表进行更新统计信息时遇到报错如下,*** ERROR[9214] Object TRAFODION.BIGDATA_REPORT_TEST.TRAF_SAMPLE_339036475483133524_1508207122_572837 could not be created. [2017-10-17 10:26:29]*** ERROR[8448]原创 2017-10-17 16:47:52 · 655 阅读 · 0 评论 -
Trafodion Troubleshoot-HRegion cannot be cast to TransactionalRegion
现象安装完Trafodion后,HBase 某个 RegionServer启动后过了一会就挂,RegionServer日志报错如下,2017-09-08 13:46:00,614 ERROR [RS_OPEN_REGION-esggy-clu-n002:16020-0] coprocessor.CoprocessorHost: The coprocessor org.apache.hadoop.hb原创 2017-09-08 17:47:29 · 481 阅读 · 0 评论 -
Trafodion Troubleshoot-SQScratchFile 3 System Error 2
现象在使用Trafodion的Load命令加载大数据量时,报以下错误,*** ERROR[10005] Sort encountered an unexpected error. Details: SQScratchFile::SQScratchFile 3 System Error 2. Error detail 0;分析SQScratchFile 3 代表与Scrach File设置有关,ms.原创 2017-09-07 16:01:12 · 417 阅读 · 0 评论 -
Trafodion Troubleshooting-org.apache.zookeeper.KeeperException$NoNodeException
现象最近在一个客户环境中发现启动Trafodion时每次dcsstart后dcsserver立即变为Down的状态,查看相关dcs_master和dcs_server的日志如下, –dcs master2017-08-29 13:05:10,895, ERROR, org.trafodion.dcs.master.ServerManager, Node Number: , CPU: , PID:原创 2017-08-29 13:22:42 · 2701 阅读 · 0 评论