Kafka到Hdfs的数据Pipeline整理

最新推荐文章于 2024-08-08 09:37:03 发布

Syn良子

最新推荐文章于 2024-08-08 09:37:03 发布

阅读量1.3k

点赞数

分类专栏： Hadoop Kafka

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cssdongl/article/details/77750442

版权

Hadoop 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处

找时间总结整理了下数据从Kafka到Hdfs的一些pipeline，如下

1> Kafka -> Flume –> Hadoop Hdfs

常用方案,基于配置,需要注意hdfs小文件性能等问题.

GitHub地址: https://github.com/apache/flume

2> Kafka -> Kafka Hadoop Loader ->Hadoop Hdfs

Kafka Hadoop Loader通过为kafka Topic下每个分区建立对应的split来创建task实现增量的加载数据流到hdfs,上次消费的partition offset是通过zookeeper来记录的.简单易用.

GitHub地址: https://github.com/michal-harish/kafka-hadoop-loader

3> Kafka -> KaBoom -> Hadoop Hdfs

KaBoom是一个借助Krackle(开源的kafka客户端，能极大的减少对象的创建，提高应用程序的性能)来消费kafka的Topic分区数据随后写如hdfs,利用Curator和Zookeeper来实现分布式服务,能够灵活的根据topic来写入不同的hdfs目录.

GitHub地址: https://github.com/blackberry/KaBoom

4> Kafka -> Kafka-connect-hdfs -> Hadoop Hdfs

Confluent的Kafka Connect旨在通过标准化如何将数据移入和移出Kafka来简化构建大规模实时数据管道的过程。可以使用Kafka Connect读取或写入外部系统，管理数据流并扩展系统，而无需编写新代码.

GitHub地址: https://github.com/confluentinc/kafka-connect-hdfs

5> Kafka -> Gobblin -> Hadoop Hdfs

Gobblin是LinkedIn开源的一个数据摄取组件.它支持多种数据源的摄取，通过并发的多任务进行数据抽取，转换，清洗，最终加载到目标数据源.支持单机和Hadoop MR二种方式，而且开箱即用，并支持很好的扩展和二次开发.

GitHub地址: https://github.com/linkedin/gobblin

参考资料:

https://www.confluent.io/blog/how-to-build-a-scalable-etl-pipeline-with-kafka-connect

http://gobblin.readthedocs.io/en/latest/Getting-Started/

http://gobblin.readthedocs.io/en/latest/case-studies/Kafka-HDFS-Ingestion/

https://github.com/confluentinc/kafka-connect-blog

http://docs.confluent.io/3.1.1/connect/connect-hdfs/docs/index.html

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Syn良子 CSDN认证博客专家 CSDN认证企业博客

码龄13年

45: 原创

119万+: 周排名

43万+: 总排名

8万+: 访问

: 等级

683: 积分

7: 粉丝

13: 获赞

16: 评论

42: 收藏

私信

关注

热门文章

分类专栏

Hadoop 7篇
Spark 10篇
HBase 6篇
Hive 6篇
Kafka 5篇
ETL 1篇
Shell 1篇
Python 1篇
Flume 2篇
Gobblin 2篇
Scala 1篇
CDH 2篇
Linux 2篇
Git 1篇

最新评论

Pyspark访问Hbase
故梦�: 您好请教一下，为什么我读出来的数据只有rowkey以及value没有列族和列呢
Pyspark访问Hbase
lmw0320: ping的话，也是可以ping得通的。
Pyspark访问Hbase
lmw0320: 请教下，我本地安装了pyspark，想远程访问服务器上的hbase数据库。我设置了master的ip地址，但是会提示错误。 master = 'spark://192.168.100.26' conf=SparkConf().setAppName("miniProject").setMaster(master) sc=SparkContext.getOrCreate(conf) 提示是:Py4JJavaError: An error occurred while calling None.org.apache.spark.api.java.JavaSparkContext. : org.apache.spark.SparkException: Invalid master URL: spark://192.168.100.26。而我用ssh直接可以登录192.168.100.26这个服务器。。。我哪里错了呢？？
Linux使用free命令查看实际内存占用
ayearinglife: available 这个参数呢？
Pyspark访问Hbase
短迪大魔王: 你好，想问下，pyspark可以像java一样，get方式单条取数据吗？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。