StreamSets实战之路
文章平均质量分 73
从StreamSets的概念、原理到实战(包括工作流配置、管理、插件开发,微服务工作流开发,源码讲解),持续更新中...
StreamSets版本采用3.13.0
macalzheng
这个作者很懒,什么都没留下…
展开
-
StreamSets实战之路(十七)-实战篇-数据服务快速微服务化
主要通过一个数据服务快速微服务化的案例来介绍Streamsets(3.20.0 汉化版)的使用。在当前下,微服务化异常盛行,肯能大家之前都用过spring boot实现微服务应用(当然不知道的可以搜下 RESTful API,这里涉及的比较多不重点讲),很多原来不是微服务的服务就需要快速地改成RESTful 接口对外提供服务,要是要用spring boot改写的话,想必一定要Coding了,哈哈,现在不需要了,本章通过一个案例介绍怎么通过streamsets快速实现服务的微服务化。学习目的:学习使用构.原创 2021-02-24 21:42:28 · 1868 阅读 · 6 评论 -
StreamSets实战之路(十六)-实战篇-数据序列化与反序列化
主要通过一个数据序列化与反序列化的案例来介绍Streamsets(3.20.0 汉化版)的使用,因为大数据加工与处理的时候,避免不了数据的序列化与反序列化,这里主要讲一下使用数据序列化插件和反序列化插件实现avro格式数据序列化与反序列化,。当然还是可以序列化其他格式,这里挑一个难的讲一下。学习目的:学习使用Data Generator 和 Data Parser。最终数据流的效果图:需要配置一个数据流。序列化效果:反序列化效果:前期准备:1.一些JSON格式的..原创 2021-02-24 21:29:13 · 791 阅读 · 2 评论 -
StreamSets实战之路(十五)-实战篇- 数据采集与处理
主要通过一个数据采集与处理的案例来介绍Streamsets(3.13.0)的使用,主要将使用Edge数据流收集streamsets系统的日志和主机性能指标,通过收集数据流收集类数据并进行简单处理,发送至kafka中,性能指标数据入库数据流和日志数据入库数据流分别从kafka中消费数据,并将两类数据进行简单处理加载到数据库中。学习目的:使用edge和streamset的数据互动,使用streamset进行分布式异步数据处理。原创 2021-02-24 21:20:27 · 3660 阅读 · 2 评论 -
StreamSets实战之路(十四)-实战篇- 定时数据迁移
主要通过一个定时数据迁移的案例来介绍Streamsets(3.20.0 汉化版)的使用,主要将mysql的数据定时将前一天的数据迁移到ES中,主要包括任务调度器、定时启动数据迁移数据流等。最终数据流的效果图:需要配置两个数据流数据迁移调度器数据流数据迁移工作流前期准备:(1)需要在mysql数据库中准备一张每天都有新增数据的表,该表必须有一个时间字段,用于选取时间范围。构建步骤:首先构建数据迁移数据流从mysql中读取数据我们选用origin类JD...原创 2021-02-23 21:04:48 · 2258 阅读 · 15 评论 -
StreamSets实战之路(十三)-实战篇- 采集新浪财经实时新闻
主要通过一个新浪财经实时新闻采集的案例来介绍Streamsets(3.20.0 汉化版)的使用,主要包括数据采集、网页数据解析、数据检测、数据入库、邮件通知等。原创 2021-02-23 20:15:14 · 1690 阅读 · 8 评论 -
StreamSets实战之路(十二)-基础篇- StreamSets-数据流管理
主要介绍StreamSets中数据流管理,包括:导入导出、复制、分享、删除、批量启停。(1)导入导出,在进行数据流迁移时会用到(2)数据流复制,在需要多个数据流并行执行时需要用到(3)数据流分享,多用户不同权限的用户之间可以进行数据流的分享(4)数据流删除,不需要的数据流可以进行批量删除(5)数据流批量启停,在需要进行多个数据流进行批量启动或停止时从下一篇开始,进入 StreamSets实战之路-实战篇,将用几个实例进行讲解!S...原创 2020-06-26 19:47:42 · 3289 阅读 · 22 评论 -
StreamSets实战之路(十一)-基础篇- StreamSets-数据流开发- Edge数据流设计
主要介绍StreamSets中Edge数据流设计,以系统硬件指标采集为例,将从指定的机器上采集相关指标,并将指标发送到数据流中进行处理。Edge数据流是使用较少资源在远端设备运行的工作流(支持的设备系统包括:linux、mac、win、arm等),主要工作物联网设备终端进行数据采集以及进行简单的数据处理,达到终端设备的智能处理,另外,数据在终端设备中进行简单处理,可以减少数据传输,减少带宽占用。(1)创建一个Edge数据流(2)设置数据流,将System Metric...原创 2020-06-26 19:02:40 · 1533 阅读 · 2 评论 -
StreamSets实战之路(十)-基础篇- StreamSets-数据流开发-微服务数据流设计
主要介绍StreamSets中微服务数据流设计,以mysql的CRUD操作为例,来设计微服务数据流。微服务在当前已经是非常流行的技术,将大型或复杂的系统进行模块拆分成功能单一、组织灵活的微服务,从而降低系统的耦合性,提高系统的灵活性、高可用性、运行高效性等。为此,Streamsets也提供了微服务简单、快速的开发方案,在设计微服务时,只需通过现有的插件任意组合就可以设计出简单或复杂的微服务。(1)创建一个微服务数据流(2)会生成一个微服务数据流模板(3)...原创 2020-06-26 18:50:22 · 3076 阅读 · 3 评论 -
StreamSets实战之路(九)-基础篇- StreamSets-Executor类组件使用
主要介绍StreamSets-Executor类组件有哪些、分类、主要用途以及使用方法。 Executor类组件主要在收到事件时会触发任务。Executor类组件主要包含以下:ADLS Gen1 File Metadata // 收到事件后,更改文件元数据,创建一个空文件或删除Azure Data Lake Storage Gen1中的文件或目录。ADLS Gen2 File Metadata // 收到事件后,更改文件元数据,创建一个空文件或删除Azure Data Lake S...原创 2020-06-26 18:40:13 · 2454 阅读 · 3 评论 -
StreamSets实战之路(八)-基础篇- StreamSets-Destination类组件使用
主要介绍StreamSets-Destination类组件有哪些、分类、主要用途以及使用方法。Destination类组件主要是将在StreamSets DC上的数据输出落地到指定的存储服务或其他服务等Destination类组件主要包含以下:Aerospike // Aerospike数据输出组件,将数据写到Aerospike(分布式KV库) 库中Amazon S3 // S3数据输出组件,将数据写到S3上Cassandra // Cassandra数据输出组件,将数据写到Cass.原创 2020-05-29 21:39:01 · 2710 阅读 · 2 评论 -
StreamSets实战之路(七)-基础篇- StreamSets-Processor类组件使用
主要介绍StreamSets-Processor类组件有哪些、分类、主要用途以及使用方法。Processor类组件主要包含以下:Base64 Field Decoder // base64 解码组件Base64 Field Encoder // base64 编码组件Control Hub API // Control Hub 接口调用组件Couchbase Lookup // Couchbase查询组件,用于从Couchbase系统中读取数据Data Generator //..原创 2020-05-18 09:39:09 · 4214 阅读 · 1 评论 -
StreamSets实战之路(六)-基础篇- StreamSets-origin类组件使用
主要介绍StreamSets-origin类组件有哪些、分类、主要用途以及使用方法。Origin类组件主要包含以下:Amazon S3Amazon SQS ConsumerAzure Data Lake Storage Gen1Azure Data Lake Storage Gen2Azure IoT/Event Hub ConsumerCoAP ServerCron Scheduler // 任务调度组件,用于调度数据流Directory // 文件目录组件,用于从.原创 2020-05-17 11:41:53 · 3993 阅读 · 7 评论 -
StreamSets实战之路(五)-基础篇- StreamSets开启第一个数据流
主要介绍第一个工作流的创建、预览、启动过程,这条数据流将本地文件中的数据进行处理,最终将处理过的数据存放到本地磁盘上(streamsets 运行在CentOS7上)。1 数据准备阶段在本地磁盘的/tmp目录下新建一个inputdatas 目录,并将我们准备好的数据放置到该目录下,这里我们准备了一个json文件,再在/tmp目录下新建一个outputdatas用于存放处理后的数据。2 数据流设计阶段(1)新建一个数据流,填写数据流名字、描述信息、定义一个标签信息。选择数据流类型为Dat...原创 2020-05-10 21:07:32 · 5521 阅读 · 17 评论 -
StreamSets实战之路(四)-环境篇- StreamSet工作平台介绍
主要介绍StreamSets DC 工作平台各个模块。原创 2020-04-29 20:56:58 · 4682 阅读 · 0 评论 -
StreamSets实战之路(三)-环境篇- StreamSet源码查看与编译
主要介绍StreamSets DC和StreamSets DC Edge怎么看源码和从源码编译生成安装包。原创 2020-04-28 23:12:24 · 5254 阅读 · 18 评论 -
StreamSets实战之路(二)-环境篇- StreamSets安装与配置
主要介绍StreamSets DC和StreamSets DC Edge的安装以及环境配置。原创 2020-04-25 22:03:51 · 9138 阅读 · 9 评论 -
StreamSets实战之路(一)-环境篇- StreamSets简介
StreamSets总体介绍StreamSets是国外一家致力于数据处理与分析的大数据解决方案的公司。公司主要选择DataOps发展路线,解决将数据转化为业务价值的重大挑战。至于为什么选择DataOps这条路子,有兴趣的同学可以查看https://streamsets.com/why-dataops/what-is-dataops/。自公司成立以来,成功研制了多款用于数据处理的软件及平台。...原创 2020-04-25 12:05:10 · 6943 阅读 · 4 评论