
ChunJun(原FlinkX)技术分享
易用、稳定、高效的开源大数据同步工具
袋鼠云数栈
数栈是袋鼠云旗下云原生一站式大数据开发平台,数栈始终坚持着以技术为核心、安全为底线、提效为目标、中台为战略的思想,坚定不移地走信创路线,不断推进产品功能迭代、技术创新、服务细化、性能升级。
展开
-
批流一体数据集成框架ChunJun数据传输模块详解分享
本期我们带大家回顾一下六六同学的直播分享《ChunJun数据传输模块介绍》。原创 2022-09-28 15:40:07 · 708 阅读 · 0 评论 -
流批一体开源项目ChunJun技术公开课——ChunJun同步Hive事务表
一键直达直播间一、直播介绍上两期渡劫同学为大家分享了ChunJun数据还原的DDL模块,想必大家对这一模块有了比较深入的了解,本期无倦同学将会为大家分享ChunJun同步Hive事务表的相关内容,直播将从Hive事务表的结构及原理、ChunJun读写Hive事务表实战、源码解析及ChunJun文件系统未来规划这几个方面入手来为大家分享,欢迎大家积极参与。二、直播主题ChunJun同步Hive事务表三、直播时间时间:2022年7月5日晚 19:00--20:00(周二)四、直播地点钉钉技术交流原创 2022-07-04 15:58:34 · 283 阅读 · 0 评论 -
袋鼠云批流一体分布式同步引擎ChunJun(原FlinkX)的前世今生
一、前言ChunJun(原FlinkX)是一个基于Flink提供易用、稳定、高效的批流统一的数据集成工具,是袋鼠云一站式大数据开发平台-数栈DTinsight的核心计算引擎,其技术架构基于实时计算框架Flink,打造出“具有袋鼠特色”的实时计算引擎。开源项目地址:https://github.com/DTStack/chunjunhttps://gitee.com/dtstack_dev_0/chunjun开源技术交流群:钉钉群:30537511二、从Flink...原创 2022-04-26 10:25:43 · 466 阅读 · 0 评论 -
直播回顾 | FlinkX HDFS Write vs StreamFileSink设计原理与使用
哈喽!朋友们11月23日晚19:00袋鼠云数栈的大数据引擎开发技术大咖-渡劫在钉钉群、微信视频号和B站同步直播FlinkX技术分享《FlinkX HDFS Write vs StreamFileSink设计原理与使用》有没有看呢?我们看过的小伙伴都表示学到了渡劫深入浅出的把日常遇到的困惑完美解答错过的人儿想看的话(方法贴在下面了)下面和数栈君一起回顾下本次的直播主要讲了些啥?敲黑板,划重点一、Flinkx-FileSystem原理与使用 Flinkx-FileS..原创 2021-11-25 16:28:58 · 1183 阅读 · 0 评论 -
数智洞见 | 数据资产难管理?五大“诀窍”分享给你
《数智洞见》数字化浪潮席卷而来,颠覆性创新正在加速。企业面临着前所未有的挑战和机遇,数字化转型成为其生存与领先发展的关键突破口。据研究数据显示,数字化转型程度高的企业获得快速增长的几率是程度低的企业四倍之多。如何进行数字化转型、如何通过利用大数据,找到新的机遇和价值增长点成为越来越多企业关注的话题。袋鼠云数栈赋能20+行业,服务3000+客户,是研究数字化转型解决方案的先行者,产品融合了大数据行业云原生、信创、湖仓一体、批流一体、多引擎兼容、跨云能力等多项前沿技术,在金融、政府、教育、军工等众多行业原创 2021-11-18 17:55:51 · 2140 阅读 · 0 评论 -
直播回顾 | Flink Exactly Once & Kafka-connector 算子
哈喽!朋友们10月21日晚19:00袋鼠云数栈的大数据引擎开发技术大咖-小刀在钉钉群、微信视频号和B站同步直播FlinkX技术分享《Flink Exactly Once & Kafka-connector 算子》有没有看呢?看过的朋友直呼学到了,学到了错过的人儿想看的话(方法贴在下面了)下面和数栈君一起回顾下本次的直播主要讲了些啥?敲黑板,划重点一、Kafka-connector 在Flinkx 中的使用1.Flink...原创 2021-10-26 18:57:30 · 849 阅读 · 0 评论 -
10月21日直播预告 | Flink Exactly Once & Kafka-connector 算子
10月21日晚19点,袋鼠云数栈技术研发团队开发工程师——小刀,将会为大家直播分享《Flink Exactly Once & Kafka-connector 算子》。课程内容主要包括以下四点:1.Kafka-connector 在Flinkx 中的使用2.Kafka-connector 如何进行分片3.Kafka-connector 如何实现Exactly Once4.数据序列化和指标监控通过本次课程能了解Flink Kafka-connector 的分片逻辑,并知道如何去自定义监原创 2021-10-21 11:08:15 · 134 阅读 · 0 评论 -
Flinkx Logminer性能探测&优化之路
前言FlinkX是袋鼠云自研大数据中间件,主要针对离线同步和实时采集功能进行实现。在实际应用中,这种数据同步采集的逻辑我们最需要关注的就是他的支持能力和采集速度,这些是其最直观的指标。通过对其支持能力的性能测试,找到FlinkX的性能瓶颈,有针对性的进行优化,提高中间件的能力。本文对于FlinkX中实时采集的功能,Oracle Logminer数据实时采集的逻辑进行性能测试并分析,分享在测试过程中的测试点与测试方法。1.测试目的针对FlinkX Logminer的性能测试主要是为了探.原创 2021-10-11 19:01:02 · 736 阅读 · 0 评论 -
直播回顾丨Flink SQL转换Operator流程及源码解析
Hello,朋友们8月18日晚19:00袋鼠云数栈的大数据引擎开发技术大牛修竹在钉钉群、微信视频号和B站同步直播FlinkX技术分享《Flink SQL转换Operator流程及源码解析》你赶上车没?相信看了的朋友们都Get了许多干货错过的童鞋不要着急(方法贴在下面了)下面和数栈君一起回顾下本次直播的内容敲黑板,划重点一、Flink SQL转换流程1.前置知识:JavaCC2.前置知识:Apache Calcite3.Flink原创 2021-08-22 10:24:40 · 223 阅读 · 0 评论 -
8月18日直播预告 | Flink SQL转换Operator流程及源码解析
8月18日晚19点,袋鼠云数栈技术研发团队开发工程师——修竹,将会为大家直播分享《Flink SQL转换Operator流程及源码解析》。课程内容主要包括以下两点:1. Flink SQL转换Operator流程介绍;2. 源码解析。通过本次直播,能够熟悉Flink SQL到Operator的转换流程,并可以从源码层面了解该流程。本次活动将会在钉钉群、微信视频号和B站同步直播,欢迎大家准时参加!数栈是—站式大数据开发平台,我们在github和gitee上有一个有趣的开源项原创 2021-08-18 09:56:25 · 107 阅读 · 0 评论 -
一文带你学会如何基于Flink构建实时计算平台
数栈是云原生—站式数据中台PaaS,我们在github和gitee上有一个有趣的开源项目:FlinkX,FlinkX是一个基于Flink的批流统一的数据同步工具,既可以采集静态的数据,也可以采集实时变化的数据,是全域、异构、批流一体的数据同步引擎。大家喜欢的话请给我们点个star!star!star!github开源项目:https://github.com/DTStack/flinkxgitee开源项目:https://gitee.com/dtstack_dev_0/flinkx平台建设背原创 2021-07-09 15:03:45 · 1594 阅读 · 0 评论 -
上线啦丨FlinkX1.12 Beta版正式在Github开源
万众期待的FlinkX1.12的Beta版今天正式在Github社区开源上线啦!这是FlinkX技术团队潜心打造的新版本的FlinkX,设计文档和使用文档已在社区中推送,大家可以随时下载查阅,喜欢的同学记得给我们点个Star哦~本次上线的FlinkX1.12 Beta版做了以下更新:1、FlinkX与FlinkStreamSQL融合FlinkX作为分布式数据同步工具,FlinkStreamSQL基于开源的flink对实时sql进行扩展,我们将二者融合。融合后的FlinkX既支持原有的数据同步原创 2021-07-01 09:58:25 · 356 阅读 · 0 评论 -
数栈技术分享:用短平快的方式告诉你Flink-SQL的扩展实现
数栈是云原生—站式数据中台PaaS,我们在github和gitee上有一个有趣的开源项目:FlinkX,FlinkX是一个基于Flink的批流统一的数据同步工具,既可以采集静态的数据,也可以采集实时变化的数据,是全域、异构、批流一体的数据同步引擎。大家喜欢的话请给我们点个star!star!star!github开源项目:https://github.com/DTStack/flinkxgitee开源项目:https://gitee.com/dtstack_dev_0/flinkx首先,本.原创 2021-06-15 17:20:16 · 184 阅读 · 0 评论 -
数栈技术分享:开源·数栈-扩展FlinkSQL实现流与维表的join
一、扩展FlinkSQL实现流与维表的join二、为什么要扩展FlinkSQL?1、实时计算需要完全SQL化SQL是数据处理中使用最广泛的语言。它允许用户简明扼要地声明他们的业务逻辑。大数据批计算使用SQL很常见,但是支持SQL的实时计算并不多。其实,用SQL开发实时任务可以极大降低数据开发的门槛,在袋鼠云数栈-实时计算模块,我们决定实现完全SQL化。数据计算采用SQL的优势☑ 声明式。用户只需要表达我想要什么,至于怎么计算那是系统的事情,用户不用关心。☑ 自动调优。查询优化器可原创 2021-06-01 11:39:23 · 237 阅读 · 0 评论 -
数栈技术分享:一文带你了解Flink jm、tm启动过程和资源分配
一、JM启动过程1、从日志角度分析启动流程1)client生成jobGraph详情请参考:https://www.bilibili.com/video/BV13K4y1P7ri2)Yarn RM接收到请求(和yarn交互不重点分析)3)在被分配的节点上的工作目录下启动launch_container.sh4)在perJob模式下,最终调用的是YarnJobClusterEntrypoint5)初始化相关运行环境,打印软件版本、运行环境、命令行参数、classpath 等信息..原创 2021-05-26 10:12:00 · 1114 阅读 · 1 评论 -
书籍赠送丨《Flink jm、tm启动过程和资源分配》直播预告
5月20日晚19点,袋鼠云数栈技术研发团队开发工程师——吹雪,将会为大家直播分享《Flink jm、tm启动过程和资源分配》。课程内容主要包括以下三点:1、flink jm启动过程2、flink jm资源分配3、flink tm启动过程通过对课程的学习,大家能了解jm和tm各自职责,并了解jm和tm之间有何联系,有助于进一步理解和使用FlinkX工具。本次活动将会在钉钉群、微信视频号和B站同步直播,欢迎大家准时参加!以下这两个开源项目地址任选其一Github开源项目地原创 2021-05-20 10:42:26 · 190 阅读 · 0 评论 -
数栈技术分享:详解FlinkX中的断点续传和实时采集
数栈是云原生—站式数据中台PaaS,我们在github和gitee上有一个有趣的开源项目:FlinkX,FlinkX是一个基于Flink的批流统一的数据同步工具,既可以采集静态的数据,也可以采集实时变化的数据,是全域、异构、批流一体的数据同步引擎。大家喜欢的话请给我们点个star!star!star!github开源项目:https://github.com/DTStack/flinkxgitee开源项目:https://gitee.com/dtstack_dev_0/flinkx袋鼠云云.原创 2021-05-06 16:40:11 · 857 阅读 · 0 评论 -
数栈产品分享:Kafka—实时离不开的那个TA
一、前言随着技术不断的成熟及市场需求的日益旺盛,实时开发已经成为当前大数据开发不可或缺的一部分。在整个实时开发的链路中,数据采集需要写入到Kafka,数据处理也需要使用到Kafka。今天我们就针对Kafka这个时下主流的消息中间件进行简单的介绍。二、消息队列:数据流的归宿在实时开发的场景中,来源于各类行为、事件的数据是随着发生时间源源不断如同河流一般进入实时任务并不断产出结果的。传统的异构数据源,数据以结构化的形式存储在对应的库表内。那么除了数据本身包含的业务时间属性,要如何找到一个稳...原创 2021-04-28 15:28:36 · 178 阅读 · 0 评论