ETL工作
文章平均质量分 80
tulinying
我希望自己把日子过得充实一些。
展开
-
REST Client组件例子,及获取数据api的一些知识
通过该组件可以访问该地理位置API。其URL为http://api.map.baidu.com/geocoder?address=%E5%8C%97%E4%BA%AC&&output=json&src=web在浏览器输入该URL,可以获得返回的JSON数据{ "status":"OK", "result":{ "location":{原创 2016-03-16 21:33:51 · 16097 阅读 · 9 评论 -
实时同步,增量ETL方案分享(源表含时间戳,做逻辑删除)
数据源、中间库、目的库均为MySql,ETL工具为kettle(General Availability Release-Version 6.0.1.0-386)1.源表有一个updated_time时间戳字段,java代码中每更新一条数据,就会用当前时间更新该时间戳。源表只做逻辑删除,即数据的status字段值置为0。2.我的方案如下:2.1暂定源表到目的表不做任原创 2016-03-17 12:01:09 · 13857 阅读 · 2 评论 -
源表含时间戳、做逻辑删除的情况,数据同步ETL方案分享
要求至少半小时会同步一次数据。下面是我的方案图。我觉得比较鸡肋的是,我的stage库表里每次存的只是本轮同步中新增的数据,若本轮没有任何新增的数据,那么stage对应的表就是空的。其实一开始我很想设计出一个source表的副本库,存的是一模一样的数据。但是想到这个副本库可能要经历全删全增,频繁的短时间的读写会带来整体的性能下降,我就放弃了。还想把stage库作为2次开发库,通过它能原创 2016-03-24 22:56:56 · 2358 阅读 · 0 评论