GBase 8a MPP Cluster 中,集群加载功能直接集成在 GBase 8a MPP Cluster 内部,提供了面向用户的 SQL 接口,集群和单机加载方式统一,支持如下功能:
支持从通用数据服务器拉取数据,支持 本地/ftp/http/hdfs/sftp 等多种协议;
支持多加载机对单表的并行加载,最大化加载性能;
支持普通文本、gzip 压缩、snappy 压缩、lzo 压缩等多种格式数据文件;
支持普通文本与定长文本的加载(format 3 和 format 4),并与 V8.5.1.2 和 V86版本格式兼容;
支持错误数据溯源功能,可以准确定位错误数据在源文件中的位置;
加载性能可以随着集群规模的扩展而持续提升。
加载语法
LOAD DATA INFILE ‘file_list’ INTO TABLE [dbname.]tbl_name [options]
加载示例
示例:
LOAD DATA INFILE ‘ftp://gbase:gbase@127.0.0.1/data/a.tbl’ INTO TABLE test.t DATA_FORMAT 3;
LOAD DATA INFILE ‘http://127.0.0.1/data/b.tbl.gz’ INTO TABLE test.t DATA_FORMAT 3;
LOAD DATA INFILE ‘hdp://gbase@127.0.0.1:50070/data/a.tbl.snappy’ INTO TABLE test.t
DATA_FORMAT 3;
LOAD DATA INFILE ‘ftp://192.168.0.1/pub/lineitem.tbl,http://192.168.0.2/lineitem.tbl’ INTO TABLE
test.lineitem FIELDS TERMINATED BY ‘|’ ENCLOSED BY ‘"’ LINES TERMINATED BY ‘\n’;
加载状态和结果查看示例:
–加载状态监控
gbase> use information_schema;
gbase> select * from load_status;
– 显示 task_id 100 任务的从第 1 条开始的后面 5 条错误数据信息
gbase> show load logs 100 limit 1,5;
– 显示所有 coordinator 节点上 task_id 101 任务的前 10 条错误数据信息
gbase> show gcluster load logs 101;
– 查询所有 coordinator 节点,select 查询形式,查询加载信息,表名为:CLUSTER_LOAD_RESULT
gbase> select * from information_schema.cluster_load_result;