gobblin
天地不仁以万物为刍狗
天之道,损有余而补不足
人之道,损不足以奉有馀
展开
-
数据从kafka到hive
背景 公司的系统是一个对外提供服务的接口,每一次调用日志都需要保存到hive中,以便后期做数据分析。每天的调用量在亿级,日志数据量100G以上,在量级还没有这么大的时候,采取的办法比较原始:直接通过log4j打印到日志文件,然后通过抽数工具同步到hive中,每天凌晨同步前一天的数据。随着量级增大,日志文件越来越大,每天抽数就要抽好几个小时,而且偶尔还由于网络问题等原因失败。 方案 日志数据不...转载 2019-06-19 09:00:16 · 12202 阅读 · 0 评论 -
Gobblin部署模式
Overview Gobblin可以运行在不同的平台上。现在,Gobblin可以运行在standalone模式(单机)和Hadoop MapReduce模式(Hadoop集群),以及Yarn框架上。下面将要介绍Gobblin不同部署模式的架构。 Gobblin支持 Java 7 及以上版本,只能运行在Hadoop 2.x版本上。 Standalone架构 ...转载 2019-06-20 15:30:21 · 578 阅读 · 0 评论 -
Linkedin Gobblin:Hadoop 通用数据抽取框架
一、简介 Gobblin是一个通用的数据抽取框架,可以从一些数据源(数据库、FTP、文件、Kafka以及自定义的数据源)抽取海量数据到Hadoop上。框架在同一个地方管理所有不同数据源的元数据,同时具备可扩展、容错、数据质量保证等特性,是一个高效的数据抽取框架。 二、Gobblin架构 (一)框架概述 一个Gobblin任务由图中浅绿色部分组件构成。每个组件都提供了...转载 2019-06-21 09:36:05 · 311 阅读 · 0 评论