一、简介
Gobblin是 LinkedIn在2015年2月开源的、为Hadoop提供的一个数据整合框架。
说到将数据导入到HDFS,此类的框架包括:
1、Apache Sqoop
2、Apache Flume
3、Aegisthus
4、Morphlines
。。。
其中,Sqoop用于在关系型数据库(RDBMS)和HDFS之间互相传输数据,Flume主要用于对日志文件的收集,Aegisthus主要用于从Cassandra抽取数据,而Morphlines则类似于Gobblin中的转换器,作为插件配合Sqoop和Flume使用。
然而,相对于其他类似框架,Gobblin的设计有3个主要的目标:
1、普遍性
2、可扩展性
3、可操作性
Gobblin支持各种各样的数据源,例如RDBMS(Oralce、Mysql、SqlServer), Espresso,Kafka,RocksDB,S3,Salesforce和Google Analytics等。通过使用同一的Gobblin框架,可以很容易的扩展这些数