菜鸟蜀黍
日常工作记录心得分享,力求浅显易懂,图文并茂,欢迎点赞关注,交流指正!!!
展开
-
【SDC】RocketMQ 在Streamsets中的应用简析
众所周知,RocketMQ 作为一款分布式、队列模型的消息中间件,具有以下特点:在复杂的应用场景中,将 RocketMQ 作为技术解耦的消息中间件,可以简化服务部署,以下是 RocketMQ 在大数据的实践分享。场景分析在大数据中,应用 RocketMQ 的使用场景中经常会出现:异步请求,应用解耦和日志处理等场景情况。经常遇到如下两种情况,一种为串行方式的业务流程(如图1),另一种为并行方式的业务流程(如图2)。**串行方式:**在[大数据解决方案]中,针对顺序化、流程化的业务场景经常使用串行方式,实现Ro原创 2022-06-14 18:02:02 · 173 阅读 · 2 评论 -
【ETL】ETL大数据集成工具Sqoop、dataX、Kettle、Canal、StreamSets大比拼
对于数据仓库,大数据集成类应用,通常会采用ETL工具辅助完成。ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。当前的很多应用也存在大量的ELT应用模式。常见的ETL工具或类ETL的数据集成同步工具很多,以下对开源的Sqoop、dataX、Kettle、Canal、StreamSetst进行简单梳理比较。通过分析,笔者个人建议优先DataX更优。Sqoop,SQL-to-Ha原创 2022-06-14 18:02:29 · 5973 阅读 · 1 评论 -
【SDC】史上最全-mysql迁移到clickhouse的5种办法
转载原文地址:https://anjia0532.github.io/2019/07/17/mysql-to-clickhouse/1create table engin mysql官方文档:注意,实际数据存储在远端mysql数据库中,可以理解成外表。可以通过在mysql增删数据进行验证。2insert into select from可以自定义列类型,列数,使用clickhouse函数对数据进行处理,比如3create table as select from网友文章:不支持自定义列,参考资料原创 2022-06-14 18:02:42 · 828 阅读 · 0 评论 -
【SDC】StreamSets实战之路-28-实战篇- 使用StreamSets实时采集指定数据目录文件并写入库Kudu
本篇文章主要介绍通过StreamSets实时的方式读取本地的数据文件,通过解析处理将文件中的内容写入到Kudu中。原创 2022-02-22 16:02:44 · 415 阅读 · 0 评论 -
【SDC】StreamSets实战之路-27-实战篇- 使用StreamSets实时采集Kafka中嵌套JSON数据并写入Hive表
本篇文章主要介绍如何使用StreamSets实时采集Kafka中嵌套的JSON数据并将采集的数据写入Hive,StreamSets的流程处理如下:原创 2022-02-21 14:35:42 · 396 阅读 · 0 评论 -
【SDC】StreamSets实战之路-26-实战篇- 如何使用StreamSets实时采集Kafka并入库Kudu
本篇文章主要介绍如何使用StreamSets实时采集Kafka的数据并将采集的数据写入Kudu。原创 2022-02-21 14:24:04 · 699 阅读 · 1 评论 -
【SDC】StreamSets实战之路-25-实战篇- 如何使用StreamSets实现MySQL中变化数据实时写入Kudu
我们在本篇文章主要介绍如何将MySQL Binary Log作为StreamSets的源,来实时捕获MySQL变化数据并将变化数据存入Kudu。原创 2022-02-21 14:15:43 · 829 阅读 · 1 评论 -
【SDC】StreamSets实战之路-24-实战篇- 如何使用StreamSets实现MySQL中变化数据实时写入HBase
本篇文章主要介绍如何使用StreamSets实现MySQL中变化数据实时写入HBase。原创 2022-02-21 14:06:42 · 570 阅读 · 0 评论 -
【SDC】StreamSets实战之路-23-实战篇- 如何使用StreamSets实现Oracle中变化数据实时写入Kudu
本篇文章主要介绍如何使用StreamSets实时采集Oracle中的变化数据实时写入Kudu,StreamSets的流程处理如下:原创 2022-02-21 13:56:11 · 672 阅读 · 0 评论 -
【SDC】StreamSets实战之路-22-实战篇- 如何使用StreamSets实时采集Kafka数据并写入Hive表
本篇文章主要介绍如何使用StreamSets实时采集Kafka的数据并将采集的数据写入Hive,StreamSets的流程处理如下:原创 2022-02-21 12:00:23 · 626 阅读 · 0 评论 -
【SDC】StreamSets实战之路-21-实战篇- 如何使用StreamSets从MySQL增量更新数据到Hive
通过StreamSets实现数据采集,在实际生产中需要实时捕获MySQL、Oracle等其他数据源的变化数据(简称CDC)将变化数据实时的写入大数据平台的Hive、HDFS、HBase、Solr、Elasticserach等。本篇文章主要介绍如何使用使用StreamSets通过JDBC的方式实时抽取增量数据到Hive。...原创 2022-02-21 11:51:55 · 645 阅读 · 0 评论 -
【SDC】StreamSets实战之路-20-环境篇- 如何在CDH中安装和使用StreamSets
StreamSets是一个大数据采集工具,数据源支持包括结构化和半/非结构化,目标源支持HDFS,HBase,Hive,Kudu,Cloudera Search, ElasticSearch等。它包括一个拖拽式的可视化数据流程设计界面,定时任务调度等功能...原创 2022-06-01 09:35:18 · 162 阅读 · 0 评论 -
【SDC】StreamSets实战之路-19-实战篇-对外提供微服务接口
StreamSet作为大数据ETL工具的选择,当然需要处理数据的合并与转存,其大部分功能集中于此。有些场景可能需要其对外提供个接口,可以被调用,StreamSets能做到吗?答案是能!并且能做当今流行的[微服务](https://so.csdn.net/so/search?q=%E5%BE%AE%E6%9C%8D%E5%8A%A1&spm=1001.2101.3001.7020),啊!好高大上~,今天就来看看吧。...原创 2022-02-21 10:32:52 · 825 阅读 · 0 评论 -
【SDC】StreamSets实战之路-17-实战篇-数据服务快速微服务化
主要通过一个数据服务快速微服务化的案例来介绍Streamsets(3.20.0 汉化版)的使用。在当前下,微服务化异常盛行,肯能大家之前都用过spring boot实现微服务应用(当然不知道的可以搜下 RESTful API,这里涉及的比较多不重点讲),很多原来不是微服务的服务就需要快速地改成RESTful 接口对外提供服务,要是要用s...原创 2022-02-19 09:50:48 · 219 阅读 · 0 评论 -
【SDC】StreamSets实战之路-16-实战篇-数据序列化与反序列化
主要通过一个数据序列化与反序列化的案例来介绍Streamsets(3.20.0 汉化版)的使用,因为大数据加工与处理的时候,避免不了数据的序列化与反序列化,这里主要讲一下使用数据序列化插件和反序列化插件实现avro格式数据序列化与反序列化,。当然还是可以序列化其他格式,这里挑一个难的讲一下...原创 2022-02-19 09:49:30 · 145 阅读 · 0 评论 -
【SDC】StreamSets实战之路-15-实战篇- 数据采集与处理
主要通过一个数据采集与处理的案例来介绍Streamsets(3.13.0)的使用,主要将使用Edge数据流收集streamsets系统的日志和主机性能指标,通过收集数据流收集类数据并进行简单处理,发送至kafka中,性能指标数据入库数据流和日志数据入库数据流分别从kafka中消费数据,并将两类数据进行简单处理加载到数据库中...原创 2022-02-19 09:48:08 · 385 阅读 · 0 评论 -
【SDC】StreamSets实战之路-14-实战篇- 定时数据迁移
主要通过一个定时数据迁移的案例来介绍Streamsets(3.20.0 汉化版)的使用,主要将mysql的数据定时将前一天的数据迁移到ES中,主要包括任务调度器、定时启动数据迁移数据流等。原创 2022-02-19 09:46:51 · 402 阅读 · 1 评论 -
【SDC】StreamSets实战之路-12-基础篇- StreamSets-数据流管理
主要介绍StreamSets中数据流管理,包括:导入导出、复制、分享、删除、批量启停。原创 2022-02-19 09:42:02 · 776 阅读 · 0 评论 -
【SDC】StreamSets实战之路-11-基础篇- StreamSets-数据流开发- Edge数据流设计
主要介绍StreamSets中Edge数据流设计,以系统硬件指标采集为例,将从指定的机器上采集相关指标,并将指标发送到数据流中进行处理原创 2022-02-19 09:40:49 · 299 阅读 · 0 评论 -
【SDC】StreamSets实战之路-10-基础篇- StreamSets-数据流开发-微服务数据流设计
主要介绍StreamSets中微服务数据流设计,以mysql的CRUD操作为例,来设计微服务数据流。原创 2022-02-19 09:38:35 · 769 阅读 · 1 评论 -
【SDC】StreamSets实战之路-9-基础篇- StreamSets-Executor类组件使用
主要介绍StreamSets-Executor类组件有哪些、分类、主要用途以及使用方法。Executor类组件主要在收到事件时会触发任务。Executor****类组件主要包含以下:ADLS Gen1 File Metadata // 收到事件后,更改文件元数据,创建一个空文件或删除Azure Data Lake Storage Gen1中的文件或目录。ADLS Gen2 File Metadata // 收到事件后,更改文件元数据,创建一个空文件或删除Azure Data Lake Stor.原创 2022-02-19 09:35:55 · 402 阅读 · 0 评论 -
【SDC】StreamSets实战之路-8-基础篇- StreamSets-Destination类组件使用
主要介绍StreamSets-Destination类组件有哪些、分类、主要用途以及使用方法。Destination类组件主要是将在StreamSets DC上的数据输出落地到指定的存储服务或其他服务等原创 2022-02-18 15:42:40 · 301 阅读 · 0 评论 -
【SDC】StreamSets实战之路-7-基础篇- StreamSets-Processor类组件使用
主要介绍StreamSets-Processor类组件有哪些、分类、主要用途以及使用方法。转载 2022-02-18 15:39:50 · 1432 阅读 · 0 评论 -
【SDC】StreamSets实战之路-6-基础篇- StreamSets-origin类组件使用
主要介绍StreamSets-origin类组件有哪些、分类、主要用途以及使用方法原创 2022-02-18 15:37:53 · 679 阅读 · 0 评论 -
【SDC】StreamSets实战之路-5-基础篇- StreamSets开启第一个数据流
主要介绍第一个工作流的创建、预览、启动过程,这条数据流将本地文件中的数据进行处理,最终将处理过的数据存放到本地磁盘上(streamsets 运行在[CentOS7原创 2022-02-18 15:36:43 · 835 阅读 · 3 评论 -
【SDC】StreamSets实战之路-4-环境篇- StreamSet工作平台介绍
主要介绍StreamSets DC 工作平台各个模块原创 2022-02-18 15:34:51 · 773 阅读 · 0 评论 -
【SDC】StreamSets实战之路-3-环境篇- StreamSet源码查看与编译
StreamSets DC源码clone目前只能在linux和Mac操作系统上进行,在Window有出现很多问题。在这只介绍在linux上进行查看源码和编译源码。原创 2022-02-18 15:32:16 · 618 阅读 · 1 评论 -
【SDC】StreamSets实战之路-1-环境篇- StreamSets简介
StreamSets是国外一家致力于数据处理与分析的大数据解决方案的公司。公司主要选择DataOps发展路线,解决将数据转化为业务价值的重大挑战。至于为什么选择DataOps这条路子,有兴趣的同学可以查看[https://streamsets.com/why-dataops/what-is-dataops/](https://streamsets.com/why-dataops/what-is-dataops/)。...原创 2022-02-18 15:24:02 · 839 阅读 · 0 评论 -
【SDC】StreamSets实战之路-2-环境篇- StreamSets安装与配置
主要介绍StreamSets DC和StreamSets DC Edge的安装以及环境配置。StreamSets官方网站提供了多种安装方式,包括:手动解压Tarball包安装、通过RPM软件包安装、通过Cloudera Manager安装、通过Docker安装,除了这几种安装方式,还提供了在云服务商上安装或者在MapR集群上安装。当然,你可以安装包括所有阶段库的完整版本的Data Collector,或者,可以安装Data Collector的core版本以仅安装要使用的阶段库,core版本安装使Data原创 2022-02-18 15:18:17 · 1475 阅读 · 6 评论