自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 将数据从消息队列kafka写到ClickHouse集群中

1、概述在生产环境中,经常遇到将数据从消息队列Kafka写到ClickHouse集群中,本文介绍如何将Kafka的数据导入到ClickHouse集群的方案。Kafka 是目前应用非常广泛的开源消息中间件,一个常用的的场景就是做数据总线收集各个服务的数据,下游各种数据服务订阅消费数据,生成各种报表或数据应用等。Clickhouse 的自带了 Kafka Engine,使得 Clickhouse 和 Kafka 的集成变得非常容易。将Kafka中数据导入ClickHouse的标准流程是:在Cli

2020-10-13 17:49:08 4099 1

原创 Spark部署模式详解

1、Spark部署模式详解在介绍部署模式之前,首先需要知道两个重要的角色:Driver(驱动器)、Executor(执行器)。1、1Driver(驱动器)Spark驱动器是执行开发程序中的main方法的进程。它负责开发人员编写的用来创建SparkContext、创建RDD、以及进行RDD的转化(transform)操作和行动(action)操作代码的执行。如果你是用的spark shell,当你启动spark shell的时候,系统后台自启一个Spark驱动器程序,就是在Spark shell中

2020-09-16 16:29:00 1261

原创 大数据任务调度软件azkaban安装部署及使用

大数据任务调度软件azkaban安装部署及使用摘要:Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。1、安装准备工作 azkaban-web-server-2.5.0.tar.gz...

2020-09-11 15:11:04 350

原创 DataX3.0简介 安装与使用

DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。开源地址:https://github.com/alibaba/DataX1、设计架构这是一个单机的多任务的ETL工具各个数据源通过DataX作为数据中转,实现数据的同步下载地址:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.t

2020-07-08 17:32:48 749

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除