九层之台起于累土
九层之台,起于累土;千里之行,始于足下!
展开
-
【StreamSet】StreamSet之Record拆分与合并
StreamSet之Record拆分与合并原创 2022-09-01 09:24:29 · 325 阅读 · 0 评论 -
【StreamSet】StreamSet之JavaScript Evaluator
StreamSet之JavaScript Evaluator原创 2022-09-01 09:25:06 · 287 阅读 · 0 评论 -
【StreamSet】StreamSet之FTP解析文件
StreamSet之FTP解析文件原创 2022-09-01 09:25:24 · 327 阅读 · 0 评论 -
【StreamSets】StreamSets的应用——SqlServer CDC的使用
毕竟有那么多的字段,根本说不清用或是不用,但数据只要一同步过去,总是能很快发现有问题,需要修正~~~,当然时间允许的话,还是写程序吧,毕竟谁让你是程序员了!StreamSets提供了CDC和Change Tracking两种凡是捕获SqlServer的数据更改,其中CDC侧重于副本复制,Change Tracking(CT) 应该是精简版,仅支持数字主键的表监控,并且不支持复合主键。而在实际演练中,发现主子表的执行在源上是有顺序的,单在StreamSets上丢失了次序,导致子表插入失败。...转载 2022-08-06 10:50:13 · 648 阅读 · 0 评论 -
【StreamSets】StreamSets 运行性能检测和优化
堆是java虚拟机所管理的内存中最大的一部分,java堆是被所有线程共享的一块内存区域,在虚拟机启动的时候创建,其存在的目的就是存放对象实例,几乎所有的对象实例和数组都会在堆上分配内存。因此,分配一个合适的堆内存显得尤为重要,默认情况下,StreamSets使用的配置为java虚拟机分配了1G的堆内存,这显然不够哦。如果无法增加处理器或目标的吞吐量,请限制管道从原始系统读取记录的速率。占用,我在全开管道时,这两项占比都比较高,甚至会出现缓慢的现象,一般点击响应非常慢时,堆内存也差不多占到95%以上了。...原创 2022-08-06 10:48:57 · 426 阅读 · 0 评论 -
【StreamSet】StreamSet之定时启动
StreamSets越来越强大了,以前的痛点被逐步解决,激活码也已经开启,可能慢慢的会为商业化做准备,毕竟不好好商业运营的公司不是好公司。让我们期待更好的DataOps吧!转载 2022-08-06 10:47:23 · 625 阅读 · 0 评论 -
【StreamSet】ETL之StreamSet之Pipelines的状态监听之WebHook钉钉篇
介绍下StreamSets的状态监听以及钉钉的webhook的互联,这位博友问的恰是时候,不久前我刚刚对接过钉钉的机器人,这次看到这个问题,对我来说,应该轻车熟路了,那就有了这篇博文,状态监听之钉钉篇。...原创 2022-08-06 10:45:10 · 317 阅读 · 0 评论 -
【StreamSet】ETL之StreamSet与RabbitMq面对面
很多朋友咨询过我,说怎么能够和MQ进行通信,怎么配置参数,和消息,这里我就以一个消费者的身份,来消费来自MQ的消息。原创 2022-08-06 10:43:02 · 350 阅读 · 0 评论 -
【StreamSet】ETL之StreamSet学习之旅十一Mysql同步到Snowflake
MySQL Binlog支持多种数据更新格式包括Row、Statement和mix(Row和Statement的混合),这里仅仅建议使用Row模式,因为该模式是StreamSets的推荐模式。转载 2022-08-06 10:40:34 · 546 阅读 · 0 评论 -
【StreamSets】StreamSets 表达式语言篇
StreamSets的表达式语言基于JSP 2.0的表达式语法,因此如果你熟悉JSP则可以快速浏览本篇文章即可,如果不熟悉也没有关系,通过阅读以下章节定能对于你的学习有很大的帮助。表达式可以应用在处理组件中,例如“Expression Evaluator” 或“Stream Selector ”组件,当然还有其他的目标组件也支持表达式。在使用表达式时,StreamSets支持表达式自动完成功能,因此可以弹出选择框供你选择需要采用的表达式,对于新手来说,这就像一个庞大的帮助库。表达式中可以使用下列内容:整体原创 2022-08-06 10:34:05 · 368 阅读 · 0 评论 -
【Streamsets】Streamsets定时拉取接口数据同步到HBase集群
根据应用需求可知,其必须用到定时器,HBase;因此把定时器作为数据源,把HBase作为数据目的地,其他的再增加Http请求处理,中间的一些列处理,即可完成该需求。完成后的流程如下图所示。这里我们设定为1分钟采集一次。输出参数配置阅读过之前文章的读者,应该都知道StreamSets处理数据的概念是流概念;因此当我们遇到数组,而又需要按数组内元素一个个处理时,均需要把数组转换为多个流。我们待处理的api返回数据恰好是个数组,因此要想正确的处理,必须把它们转换成流,这里使用 Field Pivoter原创 2022-08-06 10:25:20 · 256 阅读 · 0 评论 -
【StreamSets 】重置管道状态——管道的数据记忆
StreamSets 的管道 在运行过程中,会记录某些组件的状态,那这会影响啥呢?当你停止管道时, StreamSets会记录它停止位置时的处理组件的位置。当你重新启动管道时,它会从中断的地方继续。原创 2022-08-06 10:22:52 · 280 阅读 · 0 评论 -
【SDC】StreamSets实战之路-18-实战篇-爬取CSDN博客之星统计数据并入库
StreamSets 在爬取数据上也有着惊人的表现,它可以方便的调用接口,并简单的转换为json对象,然后进行入库,整个操作过程行云流水一般转载 2022-07-08 09:13:58 · 370 阅读 · 0 评论 -
【Hudi】Apache Hudi 设计与架构最强解读
本文将介绍Apache Hudi的基本概念、设计以及总体基础架构。Apache Hudi(简称:Hudi)使得您能在hadoop兼容的存储之上存储大量数据,同时它还提供两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理。这两种原语分别是:Update/Delete****记录:Hudi使用细粒度的文件/记录级别索引来支持Update/Delete记录,同时还提供写操作的事务保证。查询会处理最后一个提交的快照,并基于此输出结果。变更流:Hudi对获取数据变更提供了一流的支持:可以从给定的时间点获取原创 2022-07-08 09:13:42 · 134 阅读 · 0 评论 -
【SDC】CDH6.3.2中通过parcel安装Streamsets Data Collector 3.14.0
到StreamSets官网提供的下载址:https://archives.streamsets.com/index.html 下载以下文件:这里下载使用的是 3.14.0版本共有以下四个文件STREAMSETS_DATACOLLECTOR-3.22.3-el7.parcel.sha中的内容要和manifest.json中CDH版本一致打开manifest.json文件,此文件时json格式,在其中找到parcelName为"STREAMSETS_DATACOLLECTOR-3.14.0-el7.parc转载 2022-07-08 09:13:34 · 534 阅读 · 0 评论 -
【CDH】Cloudera manager 卸载并重新安装某一个节点
点击集群中的【主机】,进入主机列表勾选要删除的主机,以及点击【停止主机上的角色】【从集群中删除】【Remove From Cloudera Manager】将该主机从集群中删除1.2.2杀死相关进程1.2.3清理/etc目录1.2.4卸载 cm_processes盘1.2.5 卸载与cloudera相关的包1.2.6 清除安装文件1.2.7 删除parcel包分发文件和解压文件1.2.8删除hdfs 目录到此卸载完毕安装agent时,会“Name or service not原创 2022-07-08 09:13:26 · 251 阅读 · 0 评论 -
【SDC】StreamSets实战之路-20-环境篇- 如何在CDH中安装和使用StreamSets
1.关于StreamSetsStreamSets由Informatica前首席产品官Girish Pancha和Cloudera前开发团队负责人Arvind Prabhakar于2014年创立。他们成立该公司主要是应对来自动态数据(data in motion)的挑战 - 包括数据源,数据处理和数据本身,这是一个称为“数据漂移“(https://streamsets.com/reports/data-drift/)的问题。StreamSets设想从头开始管理数据流,避免已有产品和工具的缺陷,并启用一种管理动原创 2022-07-08 09:12:58 · 197 阅读 · 0 评论 -
【SDC】StreamSets - Hive漂移同步解决方案
在解释漂移同步之前,首先简单说明以下数据漂移的概念。数据漂移,简单来说,就是数据存放时间分区错误。在数据仓库的源数据表分区中,同一业务日期数据下包含了不属于该天的数据或者丢失了该天的变更数据。这个一般是时间戳不准确导致的,而时间戳不准确的原因有很多,这里不做过多说明,可以自行查询资料了解。漂移同步,就是解决数据漂移这个问题的,根据构建的策略,将数据同步到正确的表中。Hive漂移同步解决方案,是StreamSets提供的一整套解决方案,可以将输入数据实时同步到相应的Hive表中。这个方案除了解决数据漂移的问题转载 2022-07-07 09:02:56 · 345 阅读 · 0 评论 -
【ETL】ETL大数据集成工具Sqoop、dataX、Kettle、Canal、StreamSets大比拼
对于数据仓库,大数据集成类应用,通常会采用ETL工具辅助完成。ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。当前的很多应用也存在大量的ELT应用模式。常见的ETL工具或类ETL的数据集成同步工具很多,以下对开源的Sqoop、dataX、Kettle、Canal、StreamSetst进行简单梳理比较。通过分析,笔者个人建议优先DataX更优。Sqoop,SQL-to-Ha原创 2022-06-27 16:48:16 · 6598 阅读 · 3 评论 -
【SDC】StreamSets实战之路-3-环境篇- StreamSet源码查看与编译
StreamSets DC源码clone目前只能在linux和Mac操作系统上进行,在Window有出现很多问题。在这只介绍在linux上进行查看源码和编译源码。Git 1.9+Oracle JDK 8Maven 3.3.9+Docker 1.10+ (做集成测试的时候是需要的,编译时不测试不需要.)Node 0.10.32+1npmbower 1.8.2 (macOS, npm -g install bower : Linux, sudo npm -g install bower)grunt-cli (m原创 2022-06-28 09:30:51 · 328 阅读 · 0 评论 -
【SDC】StreamSets实战之路-12-基础篇- StreamSets-数据流管理
(1)导入导出,在进行数据流迁移时会用到(2)数据流复制,在需要多个数据流并行执行时需要用到(3)数据流分享,多用户不同权限的用户之间可以进行数据流的分享(4)数据流删除,不需要的数据流可以进行批量删除(5)数据流批量启停,在需要进行多个数据流进行批量启动或停止时Streamsets实战之路正在更新中,尽情期待!!!...原创 2022-06-29 17:10:49 · 176 阅读 · 0 评论 -
【SDC】StreamSets实战之路-4-环境篇- StreamSet工作平台介绍
(1)首次进入工作平台(默认用户名密码:admin/admin):这时我们点击‘CREATE NEW PIPELINE’按钮新建一个数据流:会看进去数据流设计界面:数据流设计界面,根据不同的功能可以分为5大区域:**数据流设计区域:**该区域是数据流设计区域,通过拖拽组件选择区域的组件与连接操作设计数据流。**配置区域:**该区域在设计阶段:主要配置整个数据流、配置每个组件、设置一个运行时数据规则;在预览阶段:查看对比各个组件的输入输出;在运行阶段,监控整个数据流、各个组件的运行状态、处理效率、出错率等;在原创 2022-06-28 09:31:59 · 180 阅读 · 0 评论 -
【SDC】StreamSets实战之路-10-基础篇- StreamSets-数据流开发-微服务数据流设计
微服务在当前已经是非常流行的技术,将大型或复杂的系统进行模块拆分成功能单一、组织灵活的微服务,从而降低系统的耦合性,提高系统的灵活性、高可用性、运行高效性等。为此,Streamsets也提供了微服务简单、快速的开发方案,在设计微服务时,只需通过现有的插件任意组合就可以设计出简单或复杂的微服务。(1)创建一个微服务数据流(2)会生成一个微服务数据流模板(3)下面对生成的模板进行改进,并运行该数据流主要的关键组件有REST Service、HTTP Router、JDBC Lookup、JDBC Tee、Sen原创 2022-06-29 17:09:43 · 276 阅读 · 0 评论 -
【SDC】StreamSets实战之路-15-实战篇- 数据采集与处理
主要通过一个数据采集与处理的案例来介绍Streamsets(3.13.0)的使用,主要将使用Edge数据流收集streamsets系统的日志和主机性能指标,通过收集数据流收集类数据并进行简单处理,发送至[kafka](https://so.csdn.net/so/search?q=kafka&spm=1001.2101.3001.7020)中,性能指标数据入库数据流和日志数据入库数据流分别从kafka中消费数据,并将两类数据进行简单处理加载到数据库中。...原创 2022-06-29 17:12:28 · 215 阅读 · 0 评论 -
【SDC】StreamSets实战之路-5-基础篇- StreamSets开启第一个数据流
在本地磁盘的/tmp目录下新建一个inputdatas 目录,并将我们准备好的数据放置到该目录下,这里我们准备了一个json文件,再在/tmp目录下新建一个outputdatas用于存放处理后的数据。(1)新建一个数据流,填写数据流名字、描述信息、定义一个标签信息。选择数据流类型为Data Collect Pipeline,点击Save按钮。(2)完成第一步会进入数据流设计界面,如下图:(3)首先从下图中的两个区域选择一个数据源插件,用于将外部数据源中的数据输入到Streamsets 中,这里我们选择一个原创 2022-06-28 09:48:28 · 199 阅读 · 0 评论 -
【SDC】StreamSets实战之路-16-实战篇-数据序列化与反序列化
主要通过一个数据序列化与[反序列化]的案例来介绍Streamsets(3.20.0 汉化版)的使用,因为大数据加工与处理的时候,避免不了数据的序列化与反序列化,这里主要讲一下使用数据序列化插件和反序列化插件实现avro格式数据序列化与反序列化,。当然还是可以序列化其他格式,这里挑一个难的讲一下。...原创 2022-06-29 17:13:51 · 151 阅读 · 0 评论 -
【SDC】StreamSets实战之路-17-实战篇-数据服务快速微服务化
主要通过一个数据服务快速微服务化的案例来介绍Streamsets(3.20.0 汉化版)的使用。在当前下,微服务化异常盛行,肯能大家之前都用过spring boot实现微服务应用(当然不知道的可以搜下 RESTful API,这里涉及的比较多不重点讲),很多原来不是微服务的服务就需要快速地改成RESTful 接口对外提供服务,要是要用spring boot改写的话,想必一定要Coding了,哈哈,现在不需要了,本章通过一个案例介绍怎么通过streamsets快速实现服务的微服务化。...原创 2022-06-29 17:14:40 · 370 阅读 · 0 评论 -
【SDC】StreamSets实战之路-14-实战篇- 定时数据迁移
需要配置两个数据流数据迁移调度器数据流数据迁移工作流(1)需要在mysql数据库中准备一张每天都有新增数据的表,该表必须有一个时间字段,用于选取时间范围。从mysql中读取数据我们选用origin类JDBC插件,做一些配置,包括:连接串、用户名密码、根据数据迁移调度器传来的时间范围配置查询SQL语句、Max Batch Size (Records)等等。注意:为什么选用origin类的JDBC插件读取数据而不选取processors类的JDBC插件读取数据呢?大家思考一下。配置一下ES配置信息,包括地址、用原创 2022-06-29 17:11:20 · 186 阅读 · 0 评论 -
【SDC】StreamSets实战之路-7-基础篇- StreamSets-Processor类组件使用
Processor****类组件主要包含以下:Base64 Field Decoder // base64 解码组件Base64 Field Encoder // base64 编码组件Control Hub API // Control Hub 接口调用组件Couchbase Lookup // Couchbase查询组件,用于从Couchbase系统中读取数据Data Generator // 数据序列化组件,将Avro、json、protobuf、text、xml等格式的数据序列成bytearray原创 2022-06-28 13:48:53 · 129 阅读 · 0 评论 -
【SDC】StreamSets实战之路-6-基础篇- StreamSets-origin类组件使用
Origin****类组件主要包含以下:Amazon S3Amazon SQS ConsumerAzure Data Lake Storage Gen1Azure Data Lake Storage Gen2Azure IoT/Event Hub ConsumerCoAP ServerCron Scheduler // 任务调度组件,用于调度数据流Directory // 文件目录组件,用于从文件目录下读取数据Elasticsearch // ES源组件,用于从ES中读取数据File Tail // 文件源原创 2022-06-28 09:52:03 · 205 阅读 · 0 评论 -
【SDC】StreamSets实战之路-9-基础篇- StreamSets-Executor类组件使用
Executor****类组件主要包含以下:ADLS Gen1 File Metadata // 收到事件后,更改文件元数据,创建一个空文件或删除Azure Data Lake Storage Gen1中的文件或目录。ADLS Gen2 File Metadata // 收到事件后,更改文件元数据,创建一个空文件或删除Azure Data Lake Storage Gen2中的文件或目录。Amazon S3 // 为指定的内容创建新的Amazon S3对象,复制存储桶中的对象,或将标签添加到现有的Amazo原创 2022-06-29 17:08:57 · 245 阅读 · 0 评论 -
【SDC】StreamSets实战之路-8-基础篇- StreamSets-Destination类组件使用
Destination类组件主要是将在StreamSets DC上的数据输出落地到指定的存储服务或其他服务等Destination****类组件主要包含以下:Aerospike // Aerospike数据输出组件,将数据写到Aerospike(分布式KV库) 库中Amazon S3 // S3数据输出组件,将数据写到S3上Cassandra // Cassandra数据输出组件,将数据写到Cassandra库中CoAP Client // CoAP 客户端,使用CoAP客户端将数据写到支持CoAP协议的服原创 2022-06-29 17:08:15 · 141 阅读 · 0 评论 -
【SDC】StreamSets实战之路-1-环境篇- StreamSets简介
StreamSets是国外一家致力于数据处理与分析的大数据解决方案的公司。公司主要选择DataOps发展路线,解决将数据转化为业务价值的重大挑战。至于为什么选择DataOps这条路子,有兴趣的同学可以查看https://streamsets.com/why-dataops/what-is-dataops/。自公司成立以来,成功研制了多款用于数据处理的软件及平台。下图是该公司主要的产品:Streamsets推出的产品主要包含:Data Collector、Transformer和Control Hub。Dat原创 2022-06-28 09:29:32 · 254 阅读 · 0 评论 -
【SDC】StreamSets实战之路-11-基础篇- StreamSets-数据流开发- Edge数据流设计
Edge数据流是使用较少资源在远端设备运行的工作流(支持的设备系统包括:linux、mac、win、arm等),主要工作物联网设备终端进行数据采集以及进行简单的数据处理,达到终端设备的智能处理,另外,数据在终端设备中进行简单处理,可以减少数据传输,减少带宽占用。(1)创建一个Edge数据流(2)设置数据流,将System Metrics拖入,用于设备硬件指标的采集;将Expression Evaluator、Field Remover拖入,用于将hostid、hostname从hostInfo中提取处理,并原创 2022-06-29 17:10:14 · 1172 阅读 · 0 评论 -
【SDC】史上最全-mysql迁移到clickhouse的5种办法
转载原文地址:https://anjia0532.github.io/2019/07/17/mysql-to-clickhouse/1create table engin mysql官方文档:注意,实际数据存储在远端mysql数据库中,可以理解成外表。可以通过在mysql增删数据进行验证。2insert into select from可以自定义列类型,列数,使用clickhouse函数对数据进行处理,比如3create table as select from网友文章:不支持自定义列,参考资料原创 2022-06-27 16:48:28 · 414 阅读 · 0 评论 -
【SDC】RocketMQ 在Streamsets中的应用简析
众所周知,RocketMQ 作为一款分布式、队列模型的消息中间件,具有以下特点:在复杂的应用场景中,将 RocketMQ 作为技术解耦的消息中间件,可以简化服务部署,以下是 RocketMQ 在大数据的实践分享。场景分析在大数据中,应用 RocketMQ 的使用场景中经常会出现:异步请求,应用解耦和日志处理等场景情况。经常遇到如下两种情况,一种为串行方式的业务流程(如图1),另一种为并行方式的业务流程(如图2)。**串行方式:**在[大数据解决方案]中,针对顺序化、流程化的业务场景经常使用串行方式,实现Ro原创 2022-06-26 17:23:33 · 129 阅读 · 0 评论 -
【SDC】StreamSets实战之路-2-环境篇- StreamSets安装与配置
1.StreamSets DC****安装与配置StreamSets官方网站提供了多种安装方式,包括:手动解压Tarball包安装、通过RPM软件包安装、通过Cloudera Manager安装、通过Docker安装,除了这几种安装方式,还提供了在云服务商上安装或者在MapR集群上安装。当然,你可以安装包括所有阶段库的完整版本的Data Collector,或者,可以安装Data Collector的core版本以仅安装要使用的阶段库,core版本安装使Data Collector可以使用更少的磁盘空间。(原创 2022-06-28 09:29:00 · 372 阅读 · 0 评论