传统数据库的数据怎么实时导入到HDFS中

最新推荐文章于 2025-02-21 09:55:52 发布

没有合适的昵称

最新推荐文章于 2025-02-21 09:55:52 发布

阅读量3.8k

点赞数 3

分类专栏：其他

本文链接：https://blog.csdn.net/weixin_42411818/article/details/100579959

版权

其他专栏收录该内容

4 篇文章

订阅专栏

注意：这里的传统数据库一般是指传统的关系型数据库，比如Oracle、MySQL、SQL Server、DB2等

将传统数据库实时导入到HDFS的方法一般是两种：

1.准实时的发起增量SQL查询，然后将查询到的增量数据导入到HDFS中
2.实时的监控数据库的增量的日志数据，然后将增量的日志数据实时导入到HDFS中

以下分别看下上面两种方式的流程以及优缺点

准实时的发起增量SQL查询的方式

要从传统数据库将数据导入到HDFS中，那么传统数据库就是数据源(Source)，HDFS就是数据的目的地(Sink)，看到这里是不是会想起Flume呢。因为我们知道Flume其实是由Source、Channel、Sink三个组件组成的，所以其实是可以使用Flume来实现这个功能的。

但是在Flume的官网并没有发现有传统数据库的Source，但是，Flume支持自定义Source，所以可以自己自定义一个传统数据库的Flume Source。

其实，这个自定义的Source别人已经帮我们实现了，就是：flume-ng-sql-source。这个开源项目中包含了一个SQLSource就是自定义的Flume的Source，这个SQLSource主要的功能就是向传统数据库发起增量的SQL查询，然后将查询出来的增量数据发往到Flume的Channel中，进而可以使用HDFSSink将数据导入到HDFS中。

这种方式的流程其实很简单：
在这里插入图片描述
这种方式优缺点：
优点：配置简单(只需要配置Flume的配置即可)，不用编程
缺点：
需要在传统数据库中执行查询操作，具有入侵性，会影响源数据库的性能
通过轮询的方式实现增量，只能做到准实时，而且轮询时间越短，对数据库的影响越大
只能识别新增数据，检测不到删除或者更新的数据
要求源数据库必须有用于表示增量的字段