自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(98)
  • 收藏
  • 关注

原创 带包围符的 null 值数据导入、导出定义

 如果想避免以上歧义,可以设置 null_value='\N',不管有没有包围符,null 值数据的导。 情况 1:定义 enclosed by '"' null_value='' 情况 2:定义 null_value='',不定义包围符。情况一认为包围符之间是有东西的,数据加载认为包围符中间是空串。带包围符的 null 值数据导入、导出定义。出、导入入库都能正常显示为 null。情况二认为列分隔符之间就是空值。

2022-11-28 10:59:05 314 1

原创 包含列分隔符的第一个字符的数据的导出

 第三种情况:分隔符是“|@$”时,使用 select 命令并增加 escaped by 导出数。结论:在数据内容包含列分隔符首字符时,需要增加 escaped by,以解决转义问题。由于导出数据中包含列分隔符的第一个字符,这时导出程序会给数据中与列分隔符。由于“|”被加了转义符,所以在导入的时候出现错误。由于“|”没有加转义符,此时导入数据是正确的。由于“|”没有加转义符,此时导入数据是正确的。包含列分隔符的第一个字符的数据的导出。第一个字符重复的字符进行转义。

2022-11-28 10:58:22 799

原创 加载 sftp 服务器 ssh 默认端口后加载语句需要加端 口号

加载 sftp 服务器修改了 ssh 默认端口后,sftp 加载语句 load data infile 需要添加端口。修改加载 sftp 服务器 ssh 默认端口后加载语句需要加端口号。

2022-11-28 10:57:20 609

原创 非空列的数据加载

不保留空格的情况下将数据中的空格当做 null 处理,与表列定义中 not null 矛盾,加载参数 PRESERVE BLANKS:用于设定是否保留字段内容两端的空格,默认不保。对非空列进行加载,数据为空格时如何处理?

2022-11-28 10:56:24 362

原创 集群加载支持 kerberos 认证_kerberos 版本要求及 集群参数配置

kerberos 客户端只需安装 krb5-libs、krb5-devel、krb5-workstation。集群节点的 krb5-libs 版本需在 1.10 或以上版本,集群节点的 Kerberos 库版本。在 kerberos 认证的加载过程中,kerberos 版本要求是什么,集群参数配置需要注。以下三个参数,若在配置文件中添加,需在 gcluster 与 gnode 层配置文件都进。以上三个参数,若在 session 级配置,只需在 gcluster 层执行即可。 kerberos 版本。

2022-11-28 10:55:25 670

原创 ftp 报错 500 OOPS: cannot change directory:/home/*******

如果使用 setsebool -P ftpd_disable_trans 1 //加-P 表示永久性。第一行中的-P 参数是为了以后不需要每次开机都输入这个命令。为 vsftpd 启动 vsftpd:[确定]重启 vsftpd,即可解决问题。关闭 vsftpd:[确定]

2022-11-28 10:54:44 461

原创 远程 rmt 导出 dual 表数据没有落到本地而是落到了 集群节点上

例如 gccli -h132.151.55.14 -ubi -pBiChinaU1!打开_t_gcluster_use_new_dual 参数,使用新 dual 模式,可以正常导出到 gccli 所在。另外,使用一般用户导出还需要额外赋予用户 dual 表的 select 权限,grant select on。在使用 rmt 导出物理表,数据文件落在本地服务器上。数据没有导出到 gccli 所在的服务器,而是落到了 132.151.55.14 上。据文件落在-h 连接的集群节点上。

2022-11-28 10:53:57 144

原创 rmt 远程导出卡住

但如果一个接收线程抢占串行写锁后,接收 Buffer 又。其它接收线程也都 Flush 完成后,发送端这个时候还没有到 timeout,这时就。有源源不断的数据,就会阻塞其它接收线程的 Flush。说明:如果不加 first_row 设置,容易出现卡住的问题。当接收端 Buffer 满了以后就抢占串行写锁,如果抢占成功就会将接收线程。后,发送端就会收到不能再发送的信息,这个时候发送端就会用一个 timeout 进行。而持有串行写锁的线程,释放该。接收端为每一个发送端启动一个接收线程,实现并。

2022-11-28 10:52:55 158

原创 orato8a 导出大数据量卡住

用 orato8a 导出 1.2T 数据,导出 290G 左右数据就无法写入。1) 使用--table_name 参数,加大--parallel 并发数,以减少查询导出时间;问题是当单次查询导出数据量过大,且其它应用 DML 操作提交过多时,oracle 的。2) 使用--query 参数,带 where 过滤,以减少查询导出时间。4) 增加 UNDO_RETENTION 时间,默认为 15 分钟。 现场其它访问 oracle 的应用。1) 避免频繁的 DML 操作提交。方式导出,都出现了同样的现象。

2022-10-24 09:53:11 1179

原创 orato8a 导出报错 error while loading shared libraries 等

报错./orato8a: error while loading shared libraries: libHbaseThrift.so.0: cannot open。libHbaseThrift.so.0 是 orato8a 安装包中自带的 lib 库,在 LD_LIBRARY_PATH 中添。在 LD_LIBRARY_PATH 中添加 libclntsh.so.11.1 所在路径。 报错找不到 libHbaseThrift.so.0。加 libHbaseThrift.so.0 所在路径。

2022-10-24 09:52:33 279

原创 sftp 加载大文件报错

建议使用 sftp 加载的方式,sshd 的配置文件需要调整 maxstartup、maxsession 等参数。确定是参数 gcluster_loader_max_data_processors 设置太大造成,将参数调小后无报。当集群并发加载任务数和单任务加载线程数较大时,会出现 sftp 文件加载失败的情。使用 sftp 加载大文件报错,加载小文件正常。

2022-10-24 09:51:54 371

原创 tmp 目录权限改变导致加载失败

调整数据库参数 tmpdir,将指定/tmp 路径的,修改为 gbase 系统用户路径,如。安全扫描,将操作系统 tmp 目录的权限修改为 750,造成集群加载失败,修复为 777。

2022-10-24 09:51:10 825

原创 使用 gcdump 指定参数 ignore-table 不导出指定的 表或视图

前提是需要事先知道哪些表或视图不需要导出,并且一个--ignore-table 参数后面只。如果需要忽略报错,不导出有问题的视图,可以加--ignore-table 参数。gcdump导出报错。

2022-10-24 09:50:25 168

原创 GBase 8a MPP Cluster 导出到 Hadoop 无响应

增加导出超时参数 gbase_export_write_timeout 解决 HDFS 导出卡住问题。增加导出超时参数 gbase_export_write_timeout 解决 HDFS 导出卡住问题。增加导出超时参数 gbase_export_write_timeout 解决 HDFS 导出卡住问题。webhdfs 导出没有超时控制,HDFS 无响应时导出长时间卡住。webhdfs 导出没有超时控制,HDFS 无响应时导出长时间卡住。webhdfs 导出没有超时控制,HDFS 无响应时导出长时间卡住。

2022-10-24 09:49:33 778

原创 导出数据到 Kerberos 认证 HDFS,数据可以正常导 出,但会有报错信息

错 2 的具体原因目前还不清楚,推测与使用相同 Kerberos 凭据向 Hadoop 进行高并。通过筛查现场 Hadoop 日志,发现共有两种报错的堆栈,都是由 jdk 层 jgss 模块引。Hadoop 集群在接收到并发的 token 请求后,有可能报错(不通过 8a 导出功能,脚。通过 Kerberos 认证不落地导出数据到 HDFS,数据可以正常导出,但会有报错信息,已经确定 hdfs 中已经有导出的数据,但是集群依然报错。发,目前暂未找到从部署上规避此问题的方法。名代替 IP 地址;

2022-10-24 09:48:35 264

原创 orato8a 抽取包含 clob 字段表速度慢

FS

2022-10-24 09:47:38 419

原创 orato8a 导出报错 error while loading shared libraries 等

文档版本(2021-04-02) 南大通用数据技术股份有限公司。

2022-09-26 10:17:37 123

原创 sftp 加载大文件报错

文档版本(2021-04-02) 南大通用数据技术股份有限公司。当集群并发加载任务数和单任务加载线程数较大时,会出现。加载大文件报错,加载小文件正常。设置太大造成,将参数调小后无报。

2022-09-26 10:16:54 614

原创 GBase 8a MPP Cluster 导出到 Hadoop 无响应

文档版本(2021-04-02) 南大通用数据技术股份有限公司。前提是需要事先知道哪些表或视图不需要导出,并且一个。如果需要忽略报错,不导出有问题的视图,可以加。无响应时导出长时间卡住。

2022-09-26 10:15:49 116

原创 orato8a 抽取包含 clob 字段表速度慢

文档版本(2021-04-02) 南大通用数据技术股份有限公司。文档版本(2021-04-02) 南大通用数据技术股份有限公司。发,目前暂未找到从部署上规避此问题的方法。中已经有导出的数据,但是集群依然报错。的具体原因目前还不清楚,推测与使用相同。,数据可以正常导出,但会有报错信息,日志,发现共有两种报错的堆栈,都是由。修改用户应用程序,在加载和导出。请求后,有可能报错(不通过。参数值,使其覆盖到大部分。攻击的实现机制导致,而报。的实现,支持单点登录和。认证不落地导出数据到。

2022-09-26 10:14:32 520

原创 orato8a 指定 query 方式导出报错 ORA-02391 连接数不足

文档版本(2021-04-02) 南大通用数据技术股份有限公司。会启动两个进程,一个里面有一个链接。在一次导出数据建立了多个。增加用户连接数设置。

2022-09-26 10:08:11 334

原创 orato8a 指定 parallel 参数全表导出时前几分钟无数据写入

文档版本(2021-04-02) 南大通用数据技术股份有限公司。具输出的导出时间要比实际运行时间小很多。运行后前几分钟是没有数据写入的,通过。,我们所查询的系统表数据量很大,运维人员,了解到库中数据量超过。工具进行抽取时发现,当使用。信息可以看到,前几分钟。返回慢,导致程序卡住了。这个查询速度是正常的。抽取数据并计时,所以。参数全表并行导出时,

2022-09-26 10:07:22 168

原创 加载千余个小文件耗时较长

况下每次加载任务需要打开大量文件(与列数成正比)进行读写,并且每次写入的。在业务允许的时间窗口内,尽量放大单次加载的批量,降低提交的频率。在有并发任务的情况下,一定要根据现场硬件情况配置线程池和并。行大批量数据加载,不擅长处理宽表小文件频繁加载的场景。个任务就可以用光线程池资源,后续任务只能串行,从而影。现场加载频繁,每次加载的数据量很小(几。代价较高(在整个加载时间的占比较高),到磁盘,数据提交阶段占用时间较长,总体。有效提高总体加载的效率。关于并发加载的参数配置。个并发加载任务,这样。

2022-09-26 10:06:19 78

原创 加载指定 having lines separator 时max_data_processor 不起作用

这个现象在当前产品中是正常的约束,因为列数据中不包含有行分隔符时,可以将。而列数据中包含有行分隔符时,无法直接将数据文件按照行分隔符分块切分,需要。建议从数据来源上杜绝这种列数据中包含有行分隔符的情况,比如可以自行指定多。考虑每个行分隔符前后的包围符是否成对匹配,这个过程是无法并行操作的。数据文件按照行进行分块切分,发送给多个。当使用文本加载方式时,行分隔符默认为。如果某列数据可能包含了行分隔符,节点参与数据分发处理,指定的。参数不起作用,加载性能较慢。,或者在数据库中修改参数。去进行数据处理分发。

2022-09-26 10:05:03 219

原创 加载报错 Unsupported version (not an attribute), or file does not exist

文件,写操作完成后会被清理掉,残留下来。的可以看作是脏数据,需手工删除。该节点元数据部分有大量的。是磁盘写操作过程中的临时。

2022-08-18 10:24:41 674

原创 加载数据列为空值时 format 取值为 3 和 5 的处理不同

数据文件的包围符、列分隔符与设置的不一致,如果第一列为字符型,数据截。行分隔符、列分隔符、包围符仅支持单字符(单字节),指定多字符报错;断入库,后面的字段都为空值;如果第一列为数值型,则都为错误数据;对于空值处理不一致的规则决定的,是符合预期的。,在少列的时候自动补齐,无论列定义是否有。数据中有空值时,入库数据为。数据中有空值时,入库数据为。数据中有空值时,如果有。对于空值的处理是先取。值,所以行为不一样。值对加载结果没有影响。支持超宽列自动截断;值补齐缺失列,而不是。约束,所以不能入库。...

2022-08-18 10:23:28 271

原创 如何加载带有 AM、PM 的时间类型数据

如果数据文件中时间不包含毫秒,可以使用。时间类型数据文件中带有。,需要正常加载入库。注意小时格式必须采用。

2022-08-18 10:22:17 256

原创 导入导出问题

gbase 8a加载报错 Line length is more than gbase_loader_max_line_length。可以检查一下文件最大行宽是否超过了参数默认值,也可以将参数值调大一些。可以在集群配置文件中添加参数以及对应的值,然后重启集群生效。这个参数的意义是加载最大行宽的字节数。需要加载不符合规范时间格式,如。...

2022-08-18 10:21:19 100

原创 gbase 8a 基础语法概念问题

1、可以删除,重建,加上 collate utf8_bin 如: create table ** default。注:同样的情况不仅会出现在 case when 中,只要是出现在 select 字段后的投。1、修改集群层和节点层的配置文件, collation-server=utf8_bin。mySql 数据库对于字符串比较的处理方式,目前 8a 的处理方式合理,不需要进行修。普通自定义函数在创建、删除时,必须指定数据库,不然会报错。函数创建、删除时,指定或不指定数据库都行。函数相当于全局函数。...

2022-08-18 10:19:04 361

原创 gabse 8a基础语法概念问题

中一个子查询创建计划,并将结果放到临时表中,其它的子查询直接使用临时。中出现多次的情况,在创建计划的时候,只对其。

2022-08-18 10:17:40 267

原创 gabse 8a常见问题

通过查询 information_schema.cluster_tables 表 来 获 取 表 的 大 小 信 息。(TABLE_DATA_SIZE、TABLE_STORAGE_SIZE),但是这张表只能通过库名和表名进行。information_schema 逐个表查询得到统计结果值写入一个临时表中,之后再从该临。1 通过集群监控的界面查询,目前集群监控支持查看表的大小信息和数据分布;2 在用户不考虑实时性时,可以考虑通过存储过程的方式定期执行,通过。查询,无法一次性获取所有表的大小信息。...

2022-08-18 10:15:42 462

原创 group by 常量执行耗时长

group by 只存在 const 类型的元素,hash redistribute 会对 const 进行 Hash 数。需要设置常量 group by 的优化参数 _t_gcluster_optimizer_group_const 来控。group by 中的 1 表示按投影列的第一个元素。0:表示优化功能关闭(默认值),会对 group by 的 const 进行 hash 重分布。据重分布,导致全部将数据分布到相同的节点上,严重影响性能。1:表示功能开启,不对常量进行重分布。工具拉取字段,在没有。.

2022-08-18 10:12:51 399

原创 GBase 8c技术特点

GBase 8c技术特点作为一款金融级分布式交易型数据库产品,GBase 8c具有强一致性的全局事务、计算存储分离、灵活的数据分布、灵活的部署方式、在线扩容缩容、在线升级、数据高可用、高安全性、异地多活、数据高效加载、集群备份恢复、易维护、标准化、兼容国产生态等技术特征。自动容错的强一致性全局事务GBase 8c采用两阶段提交协议和全局事务号来保证全局事务的强一致性,每个跨节点的事务,要么全部成功,要么全部失败,不会出现某些节点事务成功,另外一些节点事务失败的情况,实现全局事务的强一致性。GBase 8

2022-07-25 21:23:51 156

原创 GBase 8c核心技术

CN3节点接管事务后,无需重复前面已经成功提交的事务状态,可以继续完成宕机的CN2节点未完成的状态来完成本次事务。GBase8c具备事务状态保持能力,任意协调器节点(CN)宕机后,都不影响该节点正在进行的事务状态,事务可以在另一接管CN节点上继续顺利运行,从而保证数据库处理能力。对于分布式查询,根据关联表类型的不同分为复制表+复制表、复制表+分布表、分布表+分布表,数据落在相同HG上、分布表+分布表,数据落在不同HG上四种情况。当发现死锁情况时,会将全局事务号最大的事务退出,从而解决死锁问题。...

2022-07-25 21:21:10 76

原创 GBase 8c产品简介

GBase8c具备高性能、高可用、弹性伸缩、高安全性等特性,可以部署在物理机、虚拟机、容器、私有云和公有云,为金融核心系统、互联网业务系统和政企业务系统提供安全、稳定、可靠的数据存储和管理服务。作为一款金融级分布式交易型数据库产品,GBase8c具有强一致性的全局事务、计算存储分离、灵活的数据分布、灵活的部署方式、在线扩容缩容、在线升级、数据高可用、高安全性、异地多活、数据高效加载、集群备份恢复、易维护、标准化、兼容国产生态等技术特征。数据节点数据节点是数据实际存放的节点,保存表和索引等数据库对象。...

2022-07-25 21:19:59 396

原创 GBASE 8C——SQL参考6 sql语法(15

出现在INSERT中的VALUES是一个特殊情况,因为目标字段类型可以从INSERT的目标表获知,并不需要通过扫描VALUES列表来推测,所以在此情况下可以处理非常大的结果行。如果在表名前指定了ONLY只会更新所提及表中的匹配行,如果没有指定ONLY任何从所提及表继承得到的表中的匹配行也会被更新,在表名之后指定*可以显式地指示要把后代表也包括在内;要在WHERECURRENTOF条件中使用的游标名,将被更新的是从这个游标中最近取出的行,该游标必须是一个在UPDATE目标表上的非分组查询;...

2022-07-25 21:18:52 154

原创 GBASE 8C——SQL参考6 sql语法(14)

EXCEPT的结果不包含任何重复的行,除非声明了ALL选项。在这种情况下,SETROLE实际上是删除了所有直接赋予会话用户的权限,以及它的所属角色的权限,只剩下指定角色的权限。请注意,只在计算匹配的时候,才使用JOIN子句的条件,外层的条件是在计算完毕之后施加的;object_name|table_name.column_name|aggregate_name|function_name要被加上标签的对象的名称,可以是表、聚集、域、外部表、函数、序列、类型和视图的名称,可以被模式修饰;...

2022-07-25 21:17:44 148

原创 GBASE 8C——SQL参考6 sql语法(13)

例如,如果用户A被指定授权(WITHADMINOPTION)选项,且把一个权限赋予了用户B,然后用户B又赋予了用户C,则用户A不能直接将C的权限撤销。但是,用户A可以撤销用户B的授权选项,并且使用CASCADE。另外一个例子如果A和B都赋予了C同样的权限,则A可以撤销他自己的授权选项,但是不能撤销B的,因此C仍然拥有该权限。SCHEMA重新建立指定架构的所有索引,如果模式的表有从属的"TOAST"表,则这个表也会被重新索引,共享目录上的索引也会被处理,这种情况的REINDEX不能在事务内执行;...

2022-07-25 21:16:19 47

原创 GBASE 8C——SQL参考6 sql语法(12)

name要锁定的表的名字,可以被模式修饰;RELATIVE0,FORWARD0,BACKWARD0都要求在不移动游标的前提下抓取当前行,也就是重新抓取最近刚抓取过的行。output_expressionNSERT命令在每一行都被插入之后用于计算输出结果的表达式,该表达式可以使用table的任意字段,可以使用*返回被插入行的所有字段;DOUPDATE指定在冲突情况下要执行的UPDATE动作,ONCONFLICTDOUPDATE中的SET和WHERE子句能够使用该表的名称访问现有的行;...

2022-07-25 21:15:01 150

原创 GBASE 8C——SQL参考6 sql语法(11)

gabse

2022-07-25 21:13:01 107

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除