大数据之路之数据上云解决方案(全量)

最新推荐文章于 2024-08-22 11:25:36 发布

神芷迦蓝寺

最新推荐文章于 2024-08-22 11:25:36 发布

阅读量6.3k

点赞数 1

分类专栏：大数据弄潮儿文章标签：数据上云全量上云全量初始化

本文链接：https://blog.csdn.net/mochou111/article/details/96481149

版权

大数据弄潮儿专栏收录该内容

35 篇文章 3 订阅

订阅专栏

定义：数据上云又称数据采集，数据集成，数据迁移，是大数据架构中的最基础也是最根本的一环，从性质上来讲属于ETL中的一部分操作，即把数据从一个地方迁移汇总到另外一个地方。数据上云解决了信息孤岛问题，解决了信息不对称问题，即”车同轨书同文“，同时把数据迁移到云计算平台，对后续数据的计算和应用提供了第一步开山之路

难点：

数据上云如何做到在数量上，质量上保持无误？
数据上云如何解决不同平台的网络，架构等数据兼容性，影射性问题？
数据上云如何做到从云下到云上自动调度，如何保证数据变更与云下保持一致？
数据上云如何解决云下数据库表结构变化，云下数据变化，云上能及时获取，能及时在平台级做到变更？
数据上云如何针对不同的业务需求做出不同的应对，如何面面俱到而不是过度拟合？
数据上云如何解决后续运维难题？

上云工具：数据上云工具有很多，不仅有开源的DataX，Kettle，Sqoop等，还有一些厂商自研的各种数据采集平台，我们可根据实际需求选择最好的。由于很多数据采集平台都是付费或者与自己云平台绑定在一块的，买了服务才能用，而且这种平台大多数是图形化点击操作，无需掌握采集技术原理，只需傻瓜式点点即可，所以这里我们讲一下更具技术含量的开源采集工具，以DataX为例，DataX知识

篇幅有限，这里先讲全量上云

全量上云即在上云的那一刹那，把当前数据库形成一个全量快照，然后采集上云，所以在传统全量上云中，云下数据库新进来的数据是无法采集到的，不过影响也不算大。毕竟我们选择全量上云时一般都是在凌晨左右，业务量极低，而且本身全量上云就是离线操作，所以这些新进来的数据第二次采集再进来也不迟，如果业务有需求的，可以通过控制时间和采集频率来解决

以oracle - 云为例

第一步：信息配置：由于实际业务表成千上万，我们不可能一一进行json的配置，所以需要采用配置文件和脚本结合的方法：即首先配置好数据库，表等配置文件，然后通过shell脚本建立并发开始平台建表，数据上云

第二步：分区合并：可能某些oracle9i数据库上云过程中提示快照过旧，这时候就不能再使用自定义分区来上云，只能够用数据库初始分区进行，后续再在云平台进行数据合并，把一张表的不同分区合成一个分区

第三步：数据检测：数据检测主要针对两方面：数据+质量，数据可以通过脚本来一一实现检测，但是数据质量，比如是否乱码，是否跨行等只能通过自己手动来查看

第四步：后续运维：有些业务数据全量上云只需要一次，有的可能数据库较小，每天都可以全量，这些都要根据实际需求，在云平台或者脚本里设置好自动调度，还要考虑血缘，依赖，以及后续运维的难易程度

这里是数据全量上云的解决方案，如需要脚本或者工具等请参考我的Github ：DTBoys

感谢观看