数据同步之关系型数据库删数据解决方案

最新推荐文章于 2022-09-29 18:20:36 发布

lijie_cq

最新推荐文章于 2022-09-29 18:20:36 发布

阅读量2.9k

点赞数

分类专栏： sqoop 文章标签：数据库解决方案增量数据迁移一致性

本文链接：https://blog.csdn.net/qq_20641565/article/details/53511876

版权

sqoop 专栏收录该内容

5 篇文章 2 订阅

订阅专栏

之前介绍了从oracle，mysql，pg等数据库增量同步数据到hive中，并且能使关系型数据库中的数据修改之后，hive也能与之一致。

但是之前的方案，只能解决源数据端的数据修改同步一致性的问题，而不能解决源数据端删除数据一致性问题。

下面给出一个解决方案以供参考：

如下图所示oracle和hive中正常情况下数据同步应该保持一致：
这里写图片描述

但是oracle源端数据库进行了数据删除，删除了zhangsan这一条数据，导致使oracle中的数据比hive中的数据少：
这里写图片描述

如果要保持hive和oracle中数据一致，该怎么做呢？（该表的字段特别多比如有200个字段，数据量也特别大，所以重新全量同步不行）

我们可以只同步oracle源表的主键字段到hive中的一个临时表中（只同步主键字段时间很快，实测oracle一个表有300G数据，只同步主键，大概耗时2小时），将hive中的表和这个临时表做inner join，然后将结果overwrite 到最终的这个hive表中即可实现。
如下图：
这里写图片描述

insert overwrite table lijie_table
select 
    a.id,a.name.a.addr 
from
    lijie_table a
inner join
    lijie_table_tmp b
on
    a.id = b.id

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lijie_cq

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

数仓删数方案

nzbing的博客

11-02

273

源头有逻辑删除标志的话,数仓直接同步过来,推数的时候可限制isvalid = 1。a、数仓中所有表加上是否有效标志,如isvalid,第一次默认全为1。b、找出已删除数据,插入这张临时表。b、更新逻辑删除标志。

mysql数据迁移与同步常用解决方案总结

congge

05-10

6183

mysql数据迁移与同步常用解决方案总结

参与评论您还未登录，请先登录后发表或查看评论

抽取增量数据算法说明

ddxkjddx的专栏

12-13

1006

<br /><br />以下例子以sql server数据库系统为准。<br />为了实现对数据库能够实现增量导出，要求被导出的表格建立时间戳、创建日期、修改日期、是否有效四个字段（其中，创建日期和修改日期要精确到毫秒）。<br />当表格进行insert操作时，其中时间戳会自动更新，创建日期和修改日期初始化为当前服务器时间，是否有效初始化为0。这时，创建日期和修改日期是相等的。当一笔记录固化到数据库中后，创建日期要保持不变。当执行update操作时，时间戳自动更新，创建日期保持不变，修改日期更新为当前服

急需多关联关系删除解决方案

shanfeis的博客

06-25

216

我的数据库在创建的时候关联很是复杂，在对数据库中的数据进行删除的时候，因为关联比较复杂总是报错，例如：我在删除数据行A的时候，A是从表 B是主表，要级联删除数据B表的数据，删除B的数据时它又和其他表进行了关联，在删除数据的时候表之间总是多关联这个问题怎么解决。 ...

删除数据同步数据

日日留心的技术专栏

01-11

871

前言：最近在导数据，现需要重新导，设计三种数据库，sqlserver、mysql、mongodb，需要将将sqlserver中数据转文档保存导mongodb，mysql保存原始数据和文档的关系。 1.删除数据场景一，导入数据异常，数据有错误，需要删除后重新导； 1.1查询数据是否存在 //db.formData.find({"_id":NumberLong("12158357240966062...

记录一次数据同步导致的“删库”事故

刀林寻诗

08-12

607

时间 2020年8月11下午4点多前因后果我司项目环境分为：开发环境(服务和数据库)，线上环境(服务和数据库).....。今天有个新需求，涉及到数据库表的变动，我在测试环境把表设计好，然后需要把改动的表结构同步到线上环境数据库。由于我没有线上数据库的读权限。就叫同事帮忙同步。同事每次干这种同步表结构的事情都是采用navicat自带的同步功能(如上图)。正常操作就是点击上图的“结构同步”进行开发和线上环境数据库的表结构进行差异比对。对不同的地方勾选进行选中同步。这个时候负责同步的同事失误操作点

Linux rsync 增量同步与快速删除

weixin_30342209的博客

05-05

516

增量同步 rsync [args] SRC [DEST] 情形：同时维护着两份不同的data_center，但以old_data_center为标准。因为权限的缘故没有开启rsync自动同步，只是每隔一段时间手动同步一下。SRC和DEST都是采用mount形式，如果每一次都完整地copy，耗时很长，这时候就想到采用增量同步的方法，因为两份data_center同时由不同人维护，所以内容略有不同，d...

Kettle实现对源数据已删除但历史同步到的数据进行打标

Alice_qixin的博客

09-29

1893

结果：通过取两个表的唯一主键数据，通过排序合并（排序合并是必须的）用记录集连接，将数据left join，然后再通过过滤记录，筛出关联值为null的主键，作为参数穿给，执行SQL脚本，进行数据删除。当我同步到B库B表的数据，根据业务情况，不能做数据删除时，如何解决增量同步时由于上游物理删除产生再库里的“历史脏数据”，解法---对数据打标记falg ，对数据打标如何实现？通过Kettle实现ETL将A库A数据同步到B库B表，但是业务数据有物理删除，再B库B表中想要和A库A表数据一致。

大数据增量同步实现方案

最新发布

06-24

Domino数据库与关系型数据库的数据交互通常涉及到数据迁移、同步或集成。关系型数据库如Oracle、SQL Server等，以表格形式存储数据，强调数据的一致性和完整性，适合复杂的事务处理。而Domino数据库更侧重于协作和...

datax同步前先删除数据

qq_30908729的博客

11-04

3792

datax先删除数据再同步解决方法：在json文件中的writer中添加属性preSql即可，如果全量同步就用truncate，增量同步就用delete的sql即可。具体配置可参考：http://www.yayihouse.com/yayishuwu/chapter/3077

数据同步问题与解决方案：增量全量、数据漂移，数据更新、

12-15

1万+

一、增量与全量同步的合并问题：传统数据同步方式为周期全量数据同步，但随着业务发展数据量的急剧增加，周期全量同步的效率太低了。 解决方案：每个周期只同步增量数据，然后与上一个同步周期获取的全量数据进行合并，获取最新版本的全量数据。传统数据整合方案：merge 方式（update + insert ）；当前大数据平台不支持 update 操作，而采用：全外连接（full outer join） + 数据全覆盖重新加载（insert overwrite）；（即如日调度，则将当天的增量数据和前一天的全

数据库同步大数据量表之增量同步实现方案

menglonghuanying的博客

12-31

1万+

遇到的需求：两个服务器上的两个不同类型的数据库，分别是源pg库-->目标库的MySQL。数据量：4亿条数据。同步方案：同步每日新增和修改，删除的数据条。由于之前同步是全量同步，每天都需要定时全量同步，不仅时间消耗长，也影响下游业务（查询慢，有时还会锁表）。全量同步使用的java的定时任务，多线程的方式进行同步，发现某一天同步任务执行不完的情况，修改为增量同步方案。增量同步要求...

数据同步两种方式

genzld的博客

03-06

1万+

背景如果数据要存储多份的时候，为了保证数据的准备性，我们需要保证数据更新的同步性同步方式 1.全量同步：就是每天定时（避开业务高峰期）或者周期性全部把数据从一个地方拷贝到另一地方。（全部的数据） 2.增量同步：只需要去同步那些改动过，需要跟新的数据。增量的基础是全量，首先需要将全量数据拷贝过来，然后再采用增量方式同步更新。增量会抓取某个时刻（更新时间）或者检查点（checkpoint）...

mongoDB同步数据到hive

allen的博客

11-30

1万+

sqoop作为很常用的数据同步工具，用于RDBMS和HDFS的数据迁移，但是不支持NoSql，比如说MongoDB，那如果我们需要同步mongoDB的数据到hive该怎么处理呢？下面提供下我的思路：1.我先去查询了一下mongoDB可以导出数据为CSV格式或者json格式的文件，CSV是以逗号分隔的，这样可以直接把这个文件put到hdfs中然后load到hive，但是有个问题就是：如果数据本身就自带