大数据之路之数据上云解决方案(全量)

定义:数据上云又称数据采集,数据集成,数据迁移,是大数据架构中的最基础也是最根本的一环,从性质上来讲属于ETL中的一部分操作,即把数据从一个地方迁移汇总到另外一个地方。数据上云解决了信息孤岛问题,解决了信息不对称问题,即”车同轨书同文“,同时把数据迁移到云计算平台,对后续数据的计算和应用提供了第一步开山之路

难点:

  1. 数据上云如何做到在数量上,质量上保持无误?
  2. 数据上云如何解决不同平台的网络,架构等数据兼容性,影射性问题?
  3. 数据上云如何做到从云下到云上自动调度,如何保证数据变更与云下保持一致?
  4. 数据上云如何解决云下数据库表结构变化,云下数据变化,云上能及时获取,能及时在平台级做到变更?
  5. 数据上云如何针对不同的业务需求做出不同的应对,如何面面俱到而不是过度拟合?
  6. 数据上云如何解决后续运维难题?

上云工具:数据上云工具有很多,不仅有开源的DataX,Kettle,Sqoop等,还有一些厂商自研的各种数据采集平台,我们可根据实际需求选择最好的。由于很多数据采集平台都是付费或者与自己云平台绑定在一块的,买了服务才能用,而且这种平台大多数是图形化点击操作,无需掌握采集技术原理,只需傻瓜式点点即可,所以这里我们讲一下更具技术含量的开源采集工具,以DataX为例,DataX知识

篇幅有限,这里先讲全量上云

全量上云即在上云的那一刹那,把当前数据库形成一个全量快照,然后采集上云,所以在传统全量上云中,云下数据库新进来的数据是无法采集到的,不过影响也不算大。毕竟我们选择全量上云时一般都是在凌晨左右,业务量极低,而且本身全量上云就是离线操作,所以这些新进来的数据第二次采集再进来也不迟,如果业务有需求的,可以通过控制时间和采集频率来解决 

以oracle - 云 为例

第一步:信息配置:由于实际业务表成千上万,我们不可能一一进行json的配置,所以需要采用配置文件和脚本结合的方法:即首先配置好数据库,表等配置文件,然后通过shell脚本建立并发开始平台建表,数据上云

第二步:分区合并:可能某些oracle9i数据库上云过程中提示快照过旧,这时候就不能再使用自定义分区来上云,只能够用数据库初始分区进行,后续再在云平台进行数据合并,把一张表的不同分区合成一个分区

第三步:数据检测:数据检测主要针对两方面:数据+质量,数据可以通过脚本来一一实现检测,但是数据质量,比如是否乱码,是否跨行等只能通过自己手动来查看

第四步:后续运维:有些业务数据全量上云只需要一次,有的可能数据库较小,每天都可以全量,这些都要根据实际需求,在云平台或者脚本里设置好自动调度,还要考虑血缘,依赖,以及后续运维的难易程度

这里是数据全量上云的解决方案,如需要脚本或者工具等请参考我的Github :DTBoys

感谢观看

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

神芷迦蓝寺

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值