streamset 数据合并_StreamSets使用指南

最新推荐文章于 2024-01-12 14:15:15 发布

小飞侠的刀刀

最新推荐文章于 2024-01-12 14:15:15 发布

阅读量2.1k

点赞数

文章标签： streamset 数据合并

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29029731/article/details/111925539

版权

最近在调研Streamsets，照猫画虎做了几个最简单的Demo鉴于网络上相关资料非常少，做个记录。

1.简介

Streamsets是一款大数据实时采集和ETL工具，可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面，实现数据管道(Pipelines)的设计和定时任务调度。最大的特点有：

- 可视化界面操作，不写代码完成数据的采集和流转

- 内置监控，可是实时查看数据流传输的基本信息和数据的质量

- 强大的整合力，对现有常用组件全力支持，包括50种数据源、44种数据操作、46种目的地。

对于Streamsets来说，最重要的概念就是数据源(Origins)、操作(Processors)、目的地(Destinations)。创建一个Pipelines管道配置也基本是这三个方面。

常见的Origins有Kafka、HTTP、UDP、JDBC、HDFS等；Processors可以实现对每个字段的过滤、更改、编码、聚合等操作；Destinations跟Origins差不多，可以写入Kafka、Flume、JDBC、HDFS、Redis等。

2.基本安装和基本操作

目前网上的中文资料中，也就这个专题介绍的比较详细，几个常用组件的配置介绍的还可以，我也是按照这个入门的。

3.数据源

kafka单主题单进程消费者

基本使用，配置broker、zookeeper、consumer group、topic

kafka的properties可以在kafka configuration设置

offset管理，offset信息根据kafka版本保存在zookeeper或kafka里

如果没保存o

最低0.47元/天解锁文章

小飞侠的刀刀

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
streamset 数据合并_StreamSets使用指南

最近在调研Streamsets，照猫画虎做了几个最简单的Demo鉴于网络上相关资料非常少，做个记录。1.简介Streamsets是一款大数据实时采集和ETL工具，可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面，实现数据管道(Pipelines)的设计和定时任务调度。最大的特点有：- 可视化界面操作，不写代码完成数据的采集和流转- 内置监控，可是实时查看数据流传输的基本信息和数据的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。