unload/copy解决小数据量的Redshift到Greenplum迁移

最新推荐文章于 2024-07-09 10:43:12 发布

SummerLaw

最新推荐文章于 2024-07-09 10:43:12 发布

阅读量875

点赞数

分类专栏：笔记文章标签： SQL Database Redshift Greenplum

本文链接：https://blog.csdn.net/qq_41963758/article/details/80006548

版权

笔记专栏收录该内容

25 篇文章 0 订阅

订阅专栏

两行命令解决小数据量的数据从Redshift到Greenplum的迁移，中间有一些人工操作。认为应当有更优雅的方式。

源表和目标表schema一致，为避免特殊字符问题，谨慎选择分隔符(delimiter)。

Redshift

unload ('SELECT * FROM <source_table> where <clause>') TO 's3://<bucket_name>/<..>/<prefix>_' 
       CREDENTIALS 'aws_access_key_id=<aws_access_key_id>;aws_secret_access_key=<aws_secret_access_key>' 
       manifest delimiter '~' allowoverwrite parallel off;

将unload的文件下载到greenplum master机器，例如 /home/pgadmin/test.csv

Greenplum

copy <dest_table> from '/home/gpadmin/test.csv' DELIMITER '~' NULL AS '' CSV LOG ERRORS SEGMENT REJECT LIMIT 100 ROWS

Done.

官方文档：

https://docs.aws.amazon.com/redshift/latest/dg/r_UNLOAD.html

https://gpdb.docs.pivotal.io/550/ref_guide/sql_commands/COPY.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

SummerLaw

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

GreenPlum通过copy 和 gploader载入数据

MyySophia的博客

11-15

1382

GreenPlum数据加载目录 GreenPlum数据加载 1. copy命令 1.1 创建测试表 1.2 准备测试数据 1.3copy命令语法 1.4数据加载 1.5数据卸载 1.6其他参数解释 2.使用gpfdist的外部表 2.1 创建实验环境 2.2gpfdist加载数据 2.3卸载数据 3.GreenPlum数据加载工具gpload 3.1...

AWS RedShift实战应用SQL大全及经验分享[持续更新]

黑夜开发者的博客

04-02

1616

文章目录前言 - 关于RedShift一、数据维护篇1.1 表结构操作1.2 数据添加与查询1.3 数据修改与删除1.4 事物操作二、SQL结构篇2.1 使用with封装代码2.2 条件判断三、常用的函数篇2.3 字符串2.4 日期2.读入数据总结前言 - 关于RedShift RedShift是AWS上面使用非常广泛的离线数据仓库之一，本文就结合一些实际的经验，把一些常用的SQL查询做一些列举。在正文之前，也对这个数据仓库的一些特性做一下说明，如果大家有在选择一些数据仓库产品，不妨考虑一下合适不合适。

参与评论您还未登录，请先登录后发表或查看评论

AWS - Redshift - Unload 数据到S3产生的文件名

chuckchen1222的博客

06-19

658

当 Redshift Unload 数据时，文件名称会根据表的分配方式及数据分布有关。实验一：表分配方式为 ALL，数据存在在多个节点，无法预计从哪个节点导出数据。默认情况下，表数据量小时，按ALL分配，变大之后改为EVEN -- Create Table testdb=# create table test_unload_19_all (id int); CREATE TABLE -- Insert row testdb=# insert into test_unload_19_all values

AWS Redshift内copy和unload操作如何提高性能和效率

热门推荐

不见其长，日有所长

02-27

1万+

1. postgres的copy命令 postgres的COPY命令可以快速的导出/导入数据到postgresql数据库中，支持常用的文件格式，如：txt、sql、csv、压缩文件、二进制格式等。特别适合批量导出和导入数据，速度比较快。 COPY TO把一个表的所有内容都拷贝到一个文件； COPY FROM从一个文件里拷贝数据到一个表里(把数据附加到表中已经存在的内容里)。注意COPY只能用于...

GreenPlum数据库数据加载之copy命令的使用

mrhuang1992的博客

03-18

3329

对于数据加载,GreenPlum数据库提供copy工具，copy工具源于PostgreSql数据库，copy命令不仅支持表于表之间的数据加载，也支持文件与表之间的数据加载和表对文件的数据卸载。使用copy命令进行数据加载，数据需要经过Master节点分发到Segment节点，同样使用copy命令进行数据卸载，数据也需要由Segment发送到Master节点，由Master节点汇总后再写入外部文件...

如何从Teradata迁移到Greenplum（上篇）

Greenplum中文社区

06-12

976

我们在之前的文章中介绍了如何从Oracle迁移到Greenplum。与Oracle迁移类似，作为在世界范围内有广泛用户的数据仓库产品，在综合...

记录用Python从MySQL迁移数据到aws的redshift历程

qq_33631684的博客

12-12

536

前段时间需要将业务库MySQL中的数据迁移到redshift中，由于是新手，从0开始，所以遇到很多坑，也成长不少跨库迁移数据涉及到卸载源库数据，备份到文件中，迁移文件到redshift中并同步进数仓由于数据库和数仓的表结构不同，本人采用卸载纯数据到csv的方式一、从MySQL中卸载数据到CSV MySQL常规卸载数据到csv会用into outfile的方式备份数据；但是...

从oracle迁移数据到GreenPlum

数据人

02-24

3097

在面对海量数据的时候，oracle还是有一些限制，比如在单表10亿量级的查询等操作上，就算物理机器的内存已经设置很大，但是实际的效果也不尽人意，在这个时候，GP是可选方案之一。我们这里没有采用软件从oracle到greenplum，如果使用软件自动设置的话，请自行搜索ora2pg的相关操作，这里采用的方案是使用sqluldr2来导出数据，然后通过greenplum的外部表用gpfdist来实现数

dul无法加载bootstrap实现unload table/user恢复

11-22

最后结果比较悲剧,通过文件系统层面无法直接恢复出来数据文件,而且该库无任何有效备份,又没有表名,列名等信息,无奈之下只能通过底层io block重组来恢复数据文件,可是悲剧又一次发生,这个磁盘上以前也有一份system等...

Greenplum——copy insert的Java工具类

Carson073的博客

08-12

671

【代码】Greenplum copy in的Java工具类。

Greenplum-数据导入导出

数据源的港湾

09-16

2314

通过 URI 来。

DolphinDB分区与MPP(Greenplum、AWS、Redshift)的区别

漫步量化

11-26

1397

数据库架构目前的商用服务器大体可以分为三类: 对称多处理器结构 (SMP ： Symmetric Multi-Processor) ; 非一致存储访问结构 (NUMA ： Non-Uniform Memory Access) ; 海量并行处理结构 (MPP ： Massive Parallel Processing) 。数据库架构设计中主要有：一、Shared Everything ...

AWS redshift->hdb pg(Greenplum)，内置函数、数据类型、字符集

weixin_33672400的博客

10-19

633

背景redshift与hdb pg 的常用函数、数据类型、字符集对应关系。 redshift内置函数https://docs.aws.amazon.com/redshift/latest/dg/c_SQL_functions.html 数据类型https://docs.aws.amazon.com/redshift/latest/dg/c_Support...

Amazon Redshift数据迁移到MaxCompute

weixin_34405925的博客

03-26

137

Amazon Redshift数据迁移到MaxComputeAmazon Redshift 中的数据迁移到MaxCompute中经常需要先卸载到S3中，再到阿里云对象存储OSS中，大数据计算服务MaxCompute然后再通过外部表的方式直接读取OSS中的数据。如下示意图：前提条件本文以SQL Workbench/J工具来连接Reshift进行案例演示，其中用了Reshift官方的Query edi...

Greenplum集群迁移--gptransfer的使用

hmxz2nn的博客

02-23

2130

在使用greenplum时，当想将旧的集群中的数据迁移到新的集群中，有多种方法。如使用gp_dump命令进行数据的备份、拷贝与恢复，但相比较来说，还是使用gptransfer工具更简单方便，且更高效。总述 gptransfer迁移工具把Greenplum数据库元数据从一个Greenplum数据库传输到另一个Greenplum数据库，允许用户迁移整个数据库的内容或者选中的表到另一个数据库。源数据库...

Greenplum——大数据量写入和更新的性能优化之路

Carson073的博客

08-10

3194

2、在/home/gpadmin下面创建insert.sql文件，向表中插入一条随机数据。3、在/home/gpadmin下面创建read.sql文件，从表中读取一条随机数据。-- 业务库insert和update的数据：tmp_incr_data。-- 目标表里不需要更新的数据：tmp_not_update_data。1、链接数测试，模拟224个客户端连接，8个线程，每个客户端8个事务。-- 今天过来的最新数据：tmp_update_data。：增量数据和目标表数据合并到临时表，然后覆盖目标表。....

Greenplum集群迁移与扩容实践

hmxz2nn的博客

05-13

1570

记录一下一次针对客户的集群迁移与扩容过程，针对该过程中的坑做一下总结。

Informix数据库备份与恢复策略详解：onbar与unload/dbimport方法

虽然文中没有直接提到ontape，但通常在Informix环境中，备份可能涉及到磁带存储，这意味着数据会被写入磁带介质，这是一种常见的长期存储解决方案。 4. **onbar**: onbar可能是某个特定的备份软件或工具，用于...