- 博客(6)
- 收藏
- 关注
原创 Gobblin Rest Api
Gobblin Rest Api基于QueryBasedSource和QueryBasedExtractor,即数据来源是基于Query,查询得到的数据,可以来源搜索引擎查询,rest api查询,数据库查询。 自定义一组SimplejsonRestApi的设计。 这里在本地自定义了一个基于jersery的rest服务,提供了一些Get或者Put方法。
2017-12-22 09:49:50 320
原创 Gobblin简介
Gobblin是LinkedIn公司开发的用于在Hadoop环境里统一数据抽取的框架。目前Gobblin可以建立多种pipelines,比如数据质量检查器、源数据管理、开发和其他操作。 Gobblin支持多种类型的数据源。例如数据库,Rest Api服务,FTP/SFTP,hdfs文件系统等,Gobblin对其中的数据抽取,转换和加载,包括任务调度,任务分片,错误处理,任务状态管理,数
2017-12-20 11:33:57 1070 2
原创 Gobblin data quality checker
QualityChecker用于数据质量检查,共有两种类型的QualityChecker:第一种,行级别检查器。用来决定每一条被处理的数据时候能被的提交进入下一个阶段。第二种:任务级别检查器。QualityChecker设置为OPTINAL时,表示QualityChecker可选,当数据质量不满足QualityChecker的策略policy时,只打印警告信息,不阻断job运行,当设置为FAIL时
2017-12-19 17:13:23 326
原创 Gobblin CLI
Gobblin CLI提供了在终端运行jar程序的功能,该功能通过脚本bin目录下的gobblin脚本实现。gobblin命令会自动寻找job的类路径,如果变量HADOOP_HOME被设置,gobblin会找到hadoop的类路径。bin/gobblin -h列出所有可用的参数。 bin/gobblin命令的使用方法如下:bin/gobblin run [listQuickApps] [
2017-12-19 16:28:18 275
原创 Gobblin运行机制
通过Gobblin的embedded功能可以追踪Gobbblin背后的运行机制。 embeddedGobblin在加载配置文件的同时,会执行Task类的线程任务。Task类是Gobblin的job主要执行场所,包括 jobId,taskId,taskState基本信息,forks分支,extractor,converter,datawriter,rowChecker组件,这些信息在Task初始化的
2017-12-18 17:22:03 359
原创 Gobblin作为嵌入应用(Library)
Gobblin可以嵌入到java应用程序,有利于Gobblin程序的开发和调试。自定义的嵌入式类必须继承EmbeddedGobblin。EmbeddedGobblin的构造方法接受一个jobName参数,用来定义job名称,而run()方法触发一个job任务,实际上run调用了runAsync()异步任务,同时run方法和runAsync方法注解为@NotOnCli。 setTemplate()
2017-12-18 16:42:36 286
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人