01 前言
近年来,随着互联网技术的发展,数据早已成为各行业的生命源泉,数据管理的重要性不言而喻。日前,在「巨杉最具价值专家」技术交流会中,北京傲飞商智软件有限公司CEO初建军老师( [email protected])对Apache Hop基于web的可视化流式批处理平台主题进行了详细的讲解。
02 什么是Apache Hop
Apache Hop是Hop Orchestration Platform的缩写。它完全用Java编写,旨在提供广泛的数据编排工具,包括可视化开发环境,服务器,元数据分析,审计服务等。作为一个平台,Hop还希望成为一个可重复使用的库,以便可以被其他软件轻松地重复使用。
Hop起源于Kettle, Kettle 作为一款国外开源的 ETL 工具,抽取数据高效稳定,在执行ETL工具、ETL数据抽取转换等批任务时,使用频率较高。近几年,国内包括电信、金融、银行在内的各行业都使用 Kettle 作为数据处理工具。但是由于各种因素,Kettle近几年的发展还是较为缓慢,为了改变现况,从今年2月份开始,Kettle 社区在Kettle 8.2的基础上建立了一个分支,Hop就是从这个分支建立的新项目,2020年9月份,Hop正式加入Apache,成为Apache的孵化项目。
03 Hop与Kettle的区别
由于Hop源于Kettle,所以Hop的概念与Kettle十分相似。Kettle中的转换、步骤、作业、作业项等在Hop里面都有相对应的名称,如下表所示,转换在Hop中对应的是pipeline,pipeline起