大数据
文章平均质量分 84
Presto Hadoop 等大数据技术
shandongwill
学而不厌,诲人不倦,承接java、大数据相关各类培训和咨询,C、C++基础培训
展开
-
openLooKeng开发环境搭建
airbase 是 Airlift 公司提供的一个基础构建工具集,它包含了一系列 Maven 插件、依赖管理和其他配置,旨在帮助 Java 开发者更容易地创建、维护和发布 Maven 项目。当您构建或安装您的 Maven 项目时,Maven 会首先解析父 POM,并将父 POM 中的配置应用到当前项目中。在搭建OpenLooKeng开发环境之前,需要确保你的机器上安装了Java Development Kit (JDK) 8以上版本,因为OpenLooKeng是用Java编写的。原创 2024-03-30 09:45:20 · 1355 阅读 · 20 评论 -
DataX源码分析-插件机制
DataX的插件机制是其核心特性之一,它使得DataX能够灵活地适应各种不同的数据源的数据同步。这一机制主要基于插件开发框架,该框架主要包括Reader插件、Transformer插件、Writer插件。DataX的插件机制还采用了框架+插件的架构。框架负责连接Reader和Writer插件,作为两者的数据传输通道,并处理缓冲、流控、并发、数据转换等核心技术问题。这种架构使得插件只需关心数据的读取或写入本身,而同步的共性问题则由框架来处理。此外,DataX的插件机制还具有良好的扩展性和可维护性。原创 2024-02-16 20:47:16 · 1422 阅读 · 14 评论 -
DataX源码分析 Channel
DataX的Channel是Reader和Writer之间的通信组件,负责数据的缓冲和流控制。它实现了从Reader读取数据并写入到Writer的功能,确保数据在传输过程中的高效和稳定。在DataX的任务执行过程中,Channel的值可以视为数据管道的数量。Reader向Channel写入数据,而Writer从Channel读取数据。Channel还提供了限速功能,支持数据大小和数据条数的限制。原创 2024-02-15 20:53:17 · 1605 阅读 · 16 评论 -
DataX源码分析 writer
在 DataX 中,writer 是数据同步过程中的一个核心组件,负责将数据写入到目标数据源。下面是对 DataX 中 writer 组件的源码分析:Writer 接口定义:DataX 的 writer 组件首先定义了一个 Writer 接口,该接口定义了 writer 需要实现的基本方法,如 init(), write(), post() 等。不同的数据源插件需要实现这个接口,提供对应的数据写入逻辑。原创 2024-02-14 19:36:35 · 1197 阅读 · 3 评论 -
DataX源码分析 TaskExecutor
TaskExecutor是任务执行器,它负责具体的数据抽取、转换和加载工作。每个TaskExecutor都会对应一个数据同步任务,并且会根据配置的数据源和目标源信息,创建相应的读取器(Reader)和写入器(Writer),然后启动读取和写入线程,开始数据的同步工作。原创 2024-02-10 16:30:30 · 968 阅读 · 5 评论 -
DataX源码分析 reader
DataX的Reader组件负责从数据源中读取数据,并将这些数据转换成DataX框架可以处理的数据格式。DataX的Reader组件采用了插件化的设计,使得添加新的数据源类型变得相对容易。只需要实现相应的Reader接口或抽象类,并提供必要的配置参数,就可以将新的数据源集成到DataX框架中。这种可扩展性使得DataX能够适应不断变化的数据环境。Reader通常与特定的数据源绑定,每种数据源类型可能都需要一个独立的Reader实现。原创 2024-02-11 19:16:26 · 2129 阅读 · 1 评论 -
DataX源码分析 TaskGroupContainer
TaskGroupContainer是JobContainer将所有task分配到TaskGroup中执行的一个容器原创 2024-02-08 16:41:58 · 1295 阅读 · 5 评论 -
DataX源码分析-JobContainer
JobContainer就是这些容器之一,JobContainer会依次执行job的preHandler()、init()、prepare()、split()、schedule()、post()、postHandle()等方法。jobContainer主要负责的工作全部在start()里面,依次执行preHandler()、init()、prepare()、split()、schedule()、post()、postHandle()、invokeHooks()等方法。原创 2024-02-07 21:02:40 · 1365 阅读 · 4 评论 -
DataX详解和架构介绍
DataX是阿里开源的一个异构数据源离线同步工具,它致力于实现包括关系型数据库(如MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。原创 2024-02-06 20:50:58 · 2686 阅读 · 5 评论 -
impala与kudu进行集成
Kudu提供了KuduClient api用于操作kudu数据库,但不支持标准SQL操作,可以将Kudu与Apache Impala紧密集成,impala天然就支持兼容kudu,允许开发人员使用Impala的SQL语法从Kudu的tablets 插入,查询,更新和删除数据,Kudu与Impala整合本质上就是为了可以使用Hive表来操作Kudu,主要支持SQL操作。外部表则是由KUDU管理的表,元数据存储在Hive元数据库中,但实际数据文件存储在kudu中。使用下面的sql语句创建外部表。原创 2024-02-04 17:26:47 · 1415 阅读 · 8 评论 -
Kudu性能测试
Kudu性能测试,在并发小的情况下,查询性能表现比较好。虽然Kudu使用了列独立存储、bloom filter、B+tree、MVCC等优化技术,但在高并发的情况下,查询延迟比较大,并不支持高并发。原创 2024-02-03 10:44:28 · 652 阅读 · 2 评论 -
Kudu数据库详解
Kudu介绍、特性、架构详解、重要概念解读、与impala的结合、kudu-client的使用等原创 2024-02-02 09:52:15 · 1328 阅读 · 2 评论 -
Kudu集群安装手册
安装和配置kudu集群、使用kudu-client进行CRUD等操作原创 2024-02-01 09:40:24 · 1222 阅读 · 1 评论 -
Spring SpEL在Flink中的应用-与FlatMap结合实现数据动态计算
SpEL表达式与Flink FlatMapFunction或MapFunction结合可以实现基于表达式的简单动态计算。可以将计算表达式放入数据库,对数据进行计算处理,从而实现只需修改表达式不用修改Flink代码就能实现数据计算。对于基于Flink进行数据计算平台建设会起到事半功倍的效果。原创 2024-01-25 08:40:38 · 1011 阅读 · 0 评论 -
Spring SpEL在Flink中的应用-与Filter结合实现数据动态分流
SpEL表达式与Flink fiter结合可以实现基于表达式的灵活动态过滤。有关SpEL表达式的使用请参考Spring SpEL在Flink中的应用-SpEL详解。可以将过滤规则放入数据库,根据不同的数据设置不同的过滤表达式,从而实现只需修改过滤表达式不用修改Flink代码的功能。对于基于Flink进行数据计算平台建设会起到事半功倍的效果。以上只是简单的示例,在实际应用中可以将过滤表达式放到数据库,将过滤规则放入缓存定时刷新。大家可以根据实际需求进行扩展。原创 2024-01-24 10:46:10 · 1006 阅读 · 0 评论 -
Flink旁路输出OutputTag
除了由 DataStream 操作产生的主要流之外,还可以产生任意数量的旁路输出结果流。结果流中的数据类型不必与主要流中的数据类型相匹配,并且不同旁路输出的类型也可以不同。当你需要拆分数据流时,通常必须复制该数据流,然后从每个流中过滤掉不需要的数据。需要使用匿名内部类,其中T是泛型。原创 2024-01-16 13:37:52 · 1312 阅读 · 0 评论 -
Flink State 状态管理
状态在Flink中叫做State,用来保存中间计算结果或者缓存数据。状态数据的存储和访问在Task内部,如何高效地保存状态数据和使用状态数据。状态数据的备份和恢复作业失败是无法避免的,那么就要考虑如何高效地将状态数据保存下来,避免状态备份降低集群的吞吐量,并且在Failover时恢复作业到失败前的状态。状态数据的划分和动态扩容作业在集群内并行执行那么就要思考对于作业的Task而言如何使用统一的方式对状态数据进行切分,在作业修改并行度导致Task数据改变的时候,如何确保正确地恢复。原创 2024-01-13 20:11:45 · 1501 阅读 · 13 评论 -
自定义Flink SourceFunction定时读取数据库
自定义Flink SourceFunction定时读取数据库, 有些场景需要定时的读取不断变化的数据库数据作为流数据。本文中的代码实现适用于所有关系数据库。原创 2024-01-11 15:41:34 · 1226 阅读 · 5 评论 -
Flink standalone集群部署配置
Flink Standalone 部署详细步骤和主要参数配置原创 2024-01-09 17:23:12 · 1578 阅读 · 6 评论 -
批量写入数据到Elasticsearch
批量写入到Elasticsearch会提高写入性能,减少Elasticsearch io压力。执行文档批量请求时,首先需要初始化 Elasticsearch Client,其次创建 BulkProcessor ,设置 BulkProcessor 参数,最后关闭processor。原创 2024-01-04 08:09:22 · 1957 阅读 · 0 评论 -
flink如何写入es
Flink sink流数据到es5和es7的简单示例。flink写入es5和es7 的区别是引入不同的flink-connector-elasticsearch,es7已没有type的概念故无需再设置type。原创 2024-01-03 09:43:47 · 1269 阅读 · 3 评论 -
【Flink数据倾斜优化】
flink 数据倾斜 反压原创 2023-12-20 15:10:47 · 474 阅读 · 1 评论 -
【Flink Sink 流数据批量写入数据库】
flink 通过开窗window缓存周期数据构成批,然后下发到sink算子 批量写入 数据库 性能优化原创 2023-12-20 16:25:10 · 1233 阅读 · 16 评论 -
Flink Metaspace OutOfMemoryError问题分析
OutOfMemory Metaspace Flink原创 2023-12-20 17:00:05 · 701 阅读 · 0 评论 -
【Flink Taskmanager 进程被Kill的原因分析1】
flink Heartbeat timeout原创 2023-12-21 09:31:33 · 500 阅读 · 0 评论 -
ClickHouse数据库详解和应用实践
ClickHouse 是一个用于联机分析 (OLAP) 的开源的列式数据库管理系统 (DBMS)。来自于俄罗斯本土搜索引擎企业 Yandex 公司。ClickHouse具有ROLAP、在线实时查询、完整的 DBMS 功能支持、列式存储、支持批量更新、拥有非常完善的SQL支持和函数、支持高可用、不依赖 Hadoop 复杂生态、开箱即用等许多特点。原创 2023-12-31 20:31:56 · 3032 阅读 · 17 评论 -
基于NFS实现openLooKeng的动态目录
基于NFS实现openLookeng的动态目录原创 2023-12-25 09:15:54 · 641 阅读 · 3 评论