我目前正在尝试找到一个(好的)解决方案,用于如何将来自外部MySql数据库的数据同步,该数据库与任何AWS完全分离为AWS DynamoDb .
同步 . 进程应该在每天中午12:00左右运行,并且应该从DynamoDb中获取包含创建日期的最新插入项,以确保我们只从同步时的给定日期/时间获取MySql数据 . 运行 . 同步 . 通常每天会传输大约110,000条记录 .
有一点需要注意:我在工作中使用.NET .
根据我的理解,有一些AWS服务可以帮助我这样做:
ERM (Link)
AWS ERM似乎是要走的路,但似乎Hive脚本无法与外部MySql数据库通信?或者我错在这里?我发现很难找到任何可用的Hive脚本示例 .
Data Pipeline (Data Pipeline)
根据我的理解,当数据管道两端的数据管理模式完全相同时,最好使用数据管道,这不是这里的情况,因为我们正在从MySql数据库读取到DynamoDb . 结构不完全是1:1 .
第三种选择是创建一个Windows服务,它运行一段C#代码从MySql读取数据并将其存储在DynamoDb中 . 我唯一担心的是性能:-)循环处理100.000记录处理它们然后将每个存储在DynamoDb中似乎对我没什么吸引力 .
有没有人有这方面的经验,他们想分享? :-)具体的例子非常受欢迎 . 此外,如果我错过了任何服务/其他实现方式,请告诉我 .