一直在数据分析行业工作,之前作为项目经理3年,为甲方爸爸建设数据分析类项目,可能很多人理解就是画报表的,哈哈哈,这样理解也没错,因为最后的结果呈现就是报表。
但这个过程还是比较曲折的,在这里不多说。
今天说说数据处理过程,当时有些甲方爸爸没有数据清洗、处理的意识,等到数据分析项目开启的时候,发现数据质量比较差,很多会选择免费的kettle,的确能处理问题。
用过kettle的这个图肯定很熟悉,我记得当时有两个比较稳定的版本,一个8.1,一个7.2,两个图标一个蓝色、一个红色。
分享一些实用过程中的优点和缺点
优点
1、免费
甲方爸爸不用额外付费,能用,不会阻碍项目发展
2、功能全
想实现啥都行——但其实用的最多的是表输入、表输出+ktr调度
我记得当时有个非常灵活的场景,工厂十几个库,内部表配置一样,需要动态去链接,数据同步到总部,参数还是很牛的,但现在想想,安全性可能还是存在一定的问题。
缺点
1、学习难度高
功能很全,但一些操作不是很好用,一旦完成项目后要交给甲方来进行运维,这个难度会变高
当时遇到bug的时候,kettle开源嘛,只能让公司研发打了几个补丁,能用。
2、运维不稳定
有时候不知道为啥任务运行失败,但你重新运行下,就又可以了。
采用定时任务,时间设置要错开,一个任务被吊起,占用内存比较大,我当时查过,应该是2G/任务,一旦多了,可能你电脑就卡死了。。。
3、定时调度配置
这个当时是网上找的bat文件改的,还能配置日志写在哪儿。
通过windows电脑自带的功能去进行配置定时任务,不然用它自带的时间设置,kettle需要一直开着,但企业嘛,你不知道啥时候别人就帮你关了;
假如是linux的话,这个配置就更麻烦了