kettle实战-1概览-1.2适用场景-数据处理1

  上一节讲了ETL,ETL就是在数据处理,强调的是批量、高效的处理数据。这节要讲一下数据处理的场景,让人更直观的了解kettle的作用,什么地方可以用它,比其它方式有什么优势。

  数据处理在我们日常项目中,主要包括数据初始化、迁移、同步、清洗、导入导出等。首先数据初始化一般在项目上线前,会有一些基础类主数据要预先导入系统中,这时的数据源可能有多种,可能是文本类文件,如excel或txt文件。也可能是从其它库来获取,或从web服务中来,最终经过处理后写入本项目的数据库中。初始化场景的关注点在多种数据源,和短期行为,上线后一般就不需要了。如果我们不用工具,一般是需要写程序或手工搞定,写程序肯定要花费时间,占用人手,如果遇到一些比较特殊的数据源,比如SAP,NOSQL等不常见的,可能团队的人员还不一定熟悉,还有一个学习成本。关键还是短期的,上线又不用了,极浪费资源。有人可能会说,至少我学会了一些技术啊,嗯,是的没错,但对于项目经理的话就不一定是这么想了,钱可能还好,时间有时更重要。前言部分我己经说了自己的一个案例,初始化数据使用ETL工具kettle会让工作事半功倍,工具本身的学习成本很低,市面上常见的数据源基本都有。甚至还可以处理一些文件,我们在另一个项目中,需要上线前把一些产品图片初始化在系统中,我们运用kettle工具读取图片文件,并输出至分库式文件系统中。

  数据迁移可能出现在项目中要把某些数据转至另一个地方或几个地方。数据同步,一般是指将数据准实时(较短时间内)同步到另一个地方,一般供查询或统计的数据仓库中。数据清洗一般强调数据处理过程,数据会经过较验、去重、合并、删除、计算等等逻辑处理。以上场景都一些相同之处,只是着重点不太一样。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

onemy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值