m0_49291452-CSDN博客

原创带包围符的 null 值数据导入、导出定义

 如果想避免以上歧义，可以设置 null_value='\N'，不管有没有包围符，null 值数据的导。 情况 1：定义 enclosed by '"' null_value='' 情况 2：定义 null_value=''，不定义包围符。情况一认为包围符之间是有东西的，数据加载认为包围符中间是空串。带包围符的 null 值数据导入、导出定义。出、导入入库都能正常显示为 null。情况二认为列分隔符之间就是空值。

2022-11-28 10:59:05 415

原创包含列分隔符的第一个字符的数据的导出

 第三种情况：分隔符是“|@$”时，使用 select 命令并增加 escaped by 导出数。结论：在数据内容包含列分隔符首字符时，需要增加 escaped by，以解决转义问题。由于导出数据中包含列分隔符的第一个字符，这时导出程序会给数据中与列分隔符。由于“|”被加了转义符，所以在导入的时候出现错误。由于“|”没有加转义符，此时导入数据是正确的。由于“|”没有加转义符，此时导入数据是正确的。包含列分隔符的第一个字符的数据的导出。第一个字符重复的字符进行转义。

2022-11-28 10:58:22 856

原创加载 sftp 服务器 ssh 默认端口后加载语句需要加端口号

加载 sftp 服务器修改了 ssh 默认端口后，sftp 加载语句 load data infile 需要添加端口。修改加载 sftp 服务器 ssh 默认端口后加载语句需要加端口号。

2022-11-28 10:57:20 683

原创非空列的数据加载

不保留空格的情况下将数据中的空格当做 null 处理，与表列定义中 not null 矛盾，加载参数 PRESERVE BLANKS：用于设定是否保留字段内容两端的空格，默认不保。对非空列进行加载，数据为空格时如何处理？

2022-11-28 10:56:24 531

原创集群加载支持 kerberos 认证_kerberos 版本要求及集群参数配置

kerberos 客户端只需安装 krb5-libs、krb5-devel、krb5-workstation。集群节点的 krb5-libs 版本需在 1.10 或以上版本，集群节点的 Kerberos 库版本。在 kerberos 认证的加载过程中，kerberos 版本要求是什么，集群参数配置需要注。以下三个参数，若在配置文件中添加，需在 gcluster 与 gnode 层配置文件都进。以上三个参数，若在 session 级配置，只需在 gcluster 层执行即可。 kerberos 版本。

2022-11-28 10:55:25 750

原创 ftp 报错 500 OOPS: cannot change directory:/home/*******

如果使用 setsebool -P ftpd_disable_trans 1 //加-P 表示永久性。第一行中的-P 参数是为了以后不需要每次开机都输入这个命令。为 vsftpd 启动 vsftpd：[确定]重启 vsftpd，即可解决问题。关闭 vsftpd：[确定]

2022-11-28 10:54:44 561

原创远程 rmt 导出 dual 表数据没有落到本地而是落到了集群节点上

例如 gccli -h132.151.55.14 -ubi -pBiChinaU1!打开_t_gcluster_use_new_dual 参数，使用新 dual 模式，可以正常导出到 gccli 所在。另外，使用一般用户导出还需要额外赋予用户 dual 表的 select 权限，grant select on。在使用 rmt 导出物理表，数据文件落在本地服务器上。数据没有导出到 gccli 所在的服务器，而是落到了 132.151.55.14 上。据文件落在-h 连接的集群节点上。

2022-11-28 10:53:57 209

原创 rmt 远程导出卡住

但如果一个接收线程抢占串行写锁后，接收 Buffer 又。其它接收线程也都 Flush 完成后，发送端这个时候还没有到 timeout，这时就。有源源不断的数据，就会阻塞其它接收线程的 Flush。说明：如果不加 first_row 设置，容易出现卡住的问题。当接收端 Buffer 满了以后就抢占串行写锁，如果抢占成功就会将接收线程。后，发送端就会收到不能再发送的信息，这个时候发送端就会用一个 timeout 进行。而持有串行写锁的线程，释放该。接收端为每一个发送端启动一个接收线程，实现并。

2022-11-28 10:52:55 251

原创 orato8a 导出大数据量卡住

用 orato8a 导出 1.2T 数据，导出 290G 左右数据就无法写入。1）使用--table_name 参数，加大--parallel 并发数，以减少查询导出时间；问题是当单次查询导出数据量过大，且其它应用 DML 操作提交过多时，oracle 的。2）使用--query 参数，带 where 过滤，以减少查询导出时间。4）增加 UNDO_RETENTION 时间，默认为 15 分钟。 现场其它访问 oracle 的应用。1）避免频繁的 DML 操作提交。方式导出，都出现了同样的现象。

2022-10-24 09:53:11 1303

原创 orato8a 导出报错 error while loading shared libraries 等

报错./orato8a: error while loading shared libraries: libHbaseThrift.so.0: cannot open。libHbaseThrift.so.0 是 orato8a 安装包中自带的 lib 库，在 LD_LIBRARY_PATH 中添。在 LD_LIBRARY_PATH 中添加 libclntsh.so.11.1 所在路径。 报错找不到 libHbaseThrift.so.0。加 libHbaseThrift.so.0 所在路径。

2022-10-24 09:52:33 371

原创 sftp 加载大文件报错

建议使用 sftp 加载的方式，sshd 的配置文件需要调整 maxstartup、maxsession 等参数。确定是参数 gcluster_loader_max_data_processors 设置太大造成，将参数调小后无报。当集群并发加载任务数和单任务加载线程数较大时，会出现 sftp 文件加载失败的情。使用 sftp 加载大文件报错，加载小文件正常。

2022-10-24 09:51:54 478

原创 tmp 目录权限改变导致加载失败

调整数据库参数 tmpdir，将指定/tmp 路径的，修改为 gbase 系统用户路径，如。安全扫描，将操作系统 tmp 目录的权限修改为 750，造成集群加载失败，修复为 777。

2022-10-24 09:51:10 1007

原创使用 gcdump 指定参数 ignore-table 不导出指定的表或视图

前提是需要事先知道哪些表或视图不需要导出，并且一个--ignore-table 参数后面只。如果需要忽略报错，不导出有问题的视图，可以加--ignore-table 参数。gcdump导出报错。

2022-10-24 09:50:25 314

原创 GBase 8a MPP Cluster 导出到 Hadoop 无响应

增加导出超时参数 gbase_export_write_timeout 解决 HDFS 导出卡住问题。增加导出超时参数 gbase_export_write_timeout 解决 HDFS 导出卡住问题。增加导出超时参数 gbase_export_write_timeout 解决 HDFS 导出卡住问题。webhdfs 导出没有超时控制，HDFS 无响应时导出长时间卡住。webhdfs 导出没有超时控制，HDFS 无响应时导出长时间卡住。webhdfs 导出没有超时控制，HDFS 无响应时导出长时间卡住。

2022-10-24 09:49:33 834

原创导出数据到 Kerberos 认证 HDFS，数据可以正常导出，但会有报错信息

错 2 的具体原因目前还不清楚，推测与使用相同 Kerberos 凭据向 Hadoop 进行高并。通过筛查现场 Hadoop 日志，发现共有两种报错的堆栈，都是由 jdk 层 jgss 模块引。Hadoop 集群在接收到并发的 token 请求后，有可能报错（不通过 8a 导出功能，脚。通过 Kerberos 认证不落地导出数据到 HDFS，数据可以正常导出，但会有报错信息，已经确定 hdfs 中已经有导出的数据，但是集群依然报错。发，目前暂未找到从部署上规避此问题的方法。名代替 IP 地址；

2022-10-24 09:48:35 343

原创 orato8a 抽取包含 clob 字段表速度慢

FS

2022-10-24 09:47:38 518

原创 orato8a 导出报错 error while loading shared libraries 等

文档版本（2021-04-02）南大通用数据技术股份有限公司。

2022-09-26 10:17:37 197

原创 sftp 加载大文件报错

文档版本（2021-04-02）南大通用数据技术股份有限公司。当集群并发加载任务数和单任务加载线程数较大时，会出现。加载大文件报错，加载小文件正常。设置太大造成，将参数调小后无报。

2022-09-26 10:16:54 826

原创 GBase 8a MPP Cluster 导出到 Hadoop 无响应

文档版本（2021-04-02）南大通用数据技术股份有限公司。前提是需要事先知道哪些表或视图不需要导出，并且一个。如果需要忽略报错，不导出有问题的视图，可以加。无响应时导出长时间卡住。

2022-09-26 10:15:49 199

原创 orato8a 抽取包含 clob 字段表速度慢

文档版本（2021-04-02）南大通用数据技术股份有限公司。文档版本（2021-04-02）南大通用数据技术股份有限公司。发，目前暂未找到从部署上规避此问题的方法。中已经有导出的数据，但是集群依然报错。的具体原因目前还不清楚，推测与使用相同。，数据可以正常导出，但会有报错信息，日志，发现共有两种报错的堆栈，都是由。修改用户应用程序，在加载和导出。请求后，有可能报错（不通过。参数值，使其覆盖到大部分。攻击的实现机制导致，而报。的实现，支持单点登录和。认证不落地导出数据到。

2022-09-26 10:14:32 619

原创 orato8a 指定 query 方式导出报错 ORA-02391 连接数不足

文档版本（2021-04-02）南大通用数据技术股份有限公司。会启动两个进程，一个里面有一个链接。在一次导出数据建立了多个。增加用户连接数设置。

2022-09-26 10:08:11 462

原创 orato8a 指定 parallel 参数全表导出时前几分钟无数据写入

文档版本（2021-04-02）南大通用数据技术股份有限公司。具输出的导出时间要比实际运行时间小很多。运行后前几分钟是没有数据写入的，通过。，我们所查询的系统表数据量很大，运维人员，了解到库中数据量超过。工具进行抽取时发现，当使用。信息可以看到，前几分钟。返回慢，导致程序卡住了。这个查询速度是正常的。抽取数据并计时，所以。参数全表并行导出时，

2022-09-26 10:07:22 236

原创加载千余个小文件耗时较长

况下每次加载任务需要打开大量文件（与列数成正比）进行读写，并且每次写入的。在业务允许的时间窗口内，尽量放大单次加载的批量，降低提交的频率。在有并发任务的情况下，一定要根据现场硬件情况配置线程池和并。行大批量数据加载，不擅长处理宽表小文件频繁加载的场景。个任务就可以用光线程池资源，后续任务只能串行，从而影。现场加载频繁，每次加载的数据量很小（几。代价较高（在整个加载时间的占比较高），到磁盘，数据提交阶段占用时间较长，总体。有效提高总体加载的效率。关于并发加载的参数配置。个并发加载任务，这样。

2022-09-26 10:06:19 119

原创加载指定 having lines separator 时max_data_processor 不起作用

这个现象在当前产品中是正常的约束，因为列数据中不包含有行分隔符时，可以将。而列数据中包含有行分隔符时，无法直接将数据文件按照行分隔符分块切分，需要。建议从数据来源上杜绝这种列数据中包含有行分隔符的情况，比如可以自行指定多。考虑每个行分隔符前后的包围符是否成对匹配，这个过程是无法并行操作的。数据文件按照行进行分块切分，发送给多个。当使用文本加载方式时，行分隔符默认为。如果某列数据可能包含了行分隔符，节点参与数据分发处理，指定的。参数不起作用，加载性能较慢。，或者在数据库中修改参数。去进行数据处理分发。

2022-09-26 10:05:03 328

原创加载报错 Unsupported version (not an attribute), or file does not exist

文件，写操作完成后会被清理掉，残留下来。的可以看作是脏数据，需手工删除。该节点元数据部分有大量的。是磁盘写操作过程中的临时。

2022-08-18 10:24:41 851

原创加载数据列为空值时 format 取值为 3 和 5 的处理不同

数据文件的包围符、列分隔符与设置的不一致，如果第一列为字符型，数据截。行分隔符、列分隔符、包围符仅支持单字符（单字节），指定多字符报错；断入库，后面的字段都为空值；如果第一列为数值型，则都为错误数据；对于空值处理不一致的规则决定的，是符合预期的。，在少列的时候自动补齐，无论列定义是否有。数据中有空值时，入库数据为。数据中有空值时，入库数据为。数据中有空值时，如果有。对于空值的处理是先取。值，所以行为不一样。值对加载结果没有影响。支持超宽列自动截断；值补齐缺失列，而不是。约束，所以不能入库。...

2022-08-18 10:23:28 381

原创如何加载带有 AM、PM 的时间类型数据

如果数据文件中时间不包含毫秒，可以使用。时间类型数据文件中带有。，需要正常加载入库。注意小时格式必须采用。

2022-08-18 10:22:17 333

原创导入导出问题

gbase 8a加载报错 Line length is more than gbase_loader_max_line_length。可以检查一下文件最大行宽是否超过了参数默认值，也可以将参数值调大一些。可以在集群配置文件中添加参数以及对应的值，然后重启集群生效。这个参数的意义是加载最大行宽的字节数。需要加载不符合规范时间格式，如。...

2022-08-18 10:21:19 148

原创 gbase 8a 基础语法概念问题

1、可以删除，重建，加上 collate utf8_bin 如： create table ** default。注：同样的情况不仅会出现在 case when 中，只要是出现在 select 字段后的投。1、修改集群层和节点层的配置文件， collation-server=utf8_bin。mySql 数据库对于字符串比较的处理方式，目前 8a 的处理方式合理，不需要进行修。普通自定义函数在创建、删除时，必须指定数据库，不然会报错。函数创建、删除时，指定或不指定数据库都行。函数相当于全局函数。...

2022-08-18 10:19:04 609

原创 gabse 8a基础语法概念问题

中一个子查询创建计划，并将结果放到临时表中，其它的子查询直接使用临时。中出现多次的情况，在创建计划的时候，只对其。

2022-08-18 10:17:40 363

原创 gabse 8a常见问题

通过查询 information_schema.cluster_tables 表来获取表的大小信息。（TABLE_DATA_SIZE、TABLE_STORAGE_SIZE），但是这张表只能通过库名和表名进行。information_schema 逐个表查询得到统计结果值写入一个临时表中，之后再从该临。1 通过集群监控的界面查询，目前集群监控支持查看表的大小信息和数据分布；2 在用户不考虑实时性时，可以考虑通过存储过程的方式定期执行，通过。查询，无法一次性获取所有表的大小信息。...

2022-08-18 10:15:42 595

原创 group by 常量执行耗时长

group by 只存在 const 类型的元素，hash redistribute 会对 const 进行 Hash 数。需要设置常量 group by 的优化参数 _t_gcluster_optimizer_group_const 来控。group by 中的 1 表示按投影列的第一个元素。0：表示优化功能关闭(默认值)，会对 group by 的 const 进行 hash 重分布。据重分布，导致全部将数据分布到相同的节点上，严重影响性能。1：表示功能开启，不对常量进行重分布。工具拉取字段，在没有。.

2022-08-18 10:12:51 525

原创 GBase 8c技术特点

GBase 8c技术特点作为一款金融级分布式交易型数据库产品，GBase 8c具有强一致性的全局事务、计算存储分离、灵活的数据分布、灵活的部署方式、在线扩容缩容、在线升级、数据高可用、高安全性、异地多活、数据高效加载、集群备份恢复、易维护、标准化、兼容国产生态等技术特征。自动容错的强一致性全局事务GBase 8c采用两阶段提交协议和全局事务号来保证全局事务的强一致性，每个跨节点的事务，要么全部成功，要么全部失败，不会出现某些节点事务成功，另外一些节点事务失败的情况，实现全局事务的强一致性。GBase 8

2022-07-25 21:23:51 240

原创 GBase 8c核心技术

CN3节点接管事务后，无需重复前面已经成功提交的事务状态，可以继续完成宕机的CN2节点未完成的状态来完成本次事务。GBase8c具备事务状态保持能力，任意协调器节点（CN）宕机后，都不影响该节点正在进行的事务状态，事务可以在另一接管CN节点上继续顺利运行，从而保证数据库处理能力。对于分布式查询，根据关联表类型的不同分为复制表+复制表、复制表+分布表、分布表+分布表，数据落在相同HG上、分布表+分布表，数据落在不同HG上四种情况。当发现死锁情况时，会将全局事务号最大的事务退出，从而解决死锁问题。...

2022-07-25 21:21:10 117

原创 GBase 8c产品简介

GBase8c具备高性能、高可用、弹性伸缩、高安全性等特性，可以部署在物理机、虚拟机、容器、私有云和公有云，为金融核心系统、互联网业务系统和政企业务系统提供安全、稳定、可靠的数据存储和管理服务。作为一款金融级分布式交易型数据库产品，GBase8c具有强一致性的全局事务、计算存储分离、灵活的数据分布、灵活的部署方式、在线扩容缩容、在线升级、数据高可用、高安全性、异地多活、数据高效加载、集群备份恢复、易维护、标准化、兼容国产生态等技术特征。数据节点数据节点是数据实际存放的节点，保存表和索引等数据库对象。...

2022-07-25 21:19:59 548

原创 GBASE 8C——SQL参考6 sql语法（15

出现在INSERT中的VALUES是一个特殊情况，因为目标字段类型可以从INSERT的目标表获知，并不需要通过扫描VALUES列表来推测，所以在此情况下可以处理非常大的结果行。如果在表名前指定了ONLY只会更新所提及表中的匹配行，如果没有指定ONLY任何从所提及表继承得到的表中的匹配行也会被更新，在表名之后指定*可以显式地指示要把后代表也包括在内；要在WHERECURRENTOF条件中使用的游标名，将被更新的是从这个游标中最近取出的行，该游标必须是一个在UPDATE目标表上的非分组查询；...

2022-07-25 21:18:52 241

原创 GBASE 8C——SQL参考6 sql语法（14）

EXCEPT的结果不包含任何重复的行，除非声明了ALL选项。在这种情况下，SETROLE实际上是删除了所有直接赋予会话用户的权限，以及它的所属角色的权限，只剩下指定角色的权限。请注意，只在计算匹配的时候，才使用JOIN子句的条件，外层的条件是在计算完毕之后施加的；object_name|table_name.column_name|aggregate_name|function_name要被加上标签的对象的名称，可以是表、聚集、域、外部表、函数、序列、类型和视图的名称，可以被模式修饰；...

2022-07-25 21:17:44 223

原创 GBASE 8C——SQL参考6 sql语法（13）

例如，如果用户A被指定授权（WITHADMINOPTION）选项，且把一个权限赋予了用户B，然后用户B又赋予了用户C，则用户A不能直接将C的权限撤销。但是，用户A可以撤销用户B的授权选项，并且使用CASCADE。另外一个例子如果A和B都赋予了C同样的权限，则A可以撤销他自己的授权选项，但是不能撤销B的，因此C仍然拥有该权限。SCHEMA重新建立指定架构的所有索引，如果模式的表有从属的"TOAST"表，则这个表也会被重新索引，共享目录上的索引也会被处理，这种情况的REINDEX不能在事务内执行；...

2022-07-25 21:16:19 96

原创 GBASE 8C——SQL参考6 sql语法（12）

name要锁定的表的名字，可以被模式修饰；RELATIVE0，FORWARD0，BACKWARD0都要求在不移动游标的前提下抓取当前行，也就是重新抓取最近刚抓取过的行。output_expressionNSERT命令在每一行都被插入之后用于计算输出结果的表达式，该表达式可以使用table的任意字段，可以使用*返回被插入行的所有字段；DOUPDATE指定在冲突情况下要执行的UPDATE动作，ONCONFLICTDOUPDATE中的SET和WHERE子句能够使用该表的名称访问现有的行；...

2022-07-25 21:15:01 221

原创 GBASE 8C——SQL参考6 sql语法（11）

gabse

2022-07-25 21:13:01 179

空空如也

空空如也