自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(184)
  • 收藏
  • 关注

原创 ChunJun FTP Connector 功能扩展解读

自定义 FlieFormat 同样是以工厂模式实现的,ChunJun目前已实现 Excel、Csv、Text 三种文件结构,当前仍然局限于 FTP,后续会扩展成公共模块,独属于 ChunJun 的 Format。

2023-06-01 10:25:03 78

原创 理论+实操|一文掌握 RFM 模型在客户数据洞察平台内的落地实战

以上,就是 RFM 模型在「袋鼠云客户数据洞察平台」的实战演练。除了 RFM 模型,客户数据洞察平台也可以落地其他典型的用户分析模型,如 AARRR 模型、PLC 模型、AIPL 模型等。在实际使用中,多模型组合分析也是重要的分析洞察内容,后续将陆续为大家呈现更多的模型加工与分析的实操内容,欢迎关注。

2023-05-31 16:41:44 67

原创 Apache Hudi 在袋鼠云数据湖平台的设计与实践

Apache Hudi 是一个开源的数据湖存储系统,可以在 Hadoop 生态系统中提供实时数据仓库处理功能。Hudi 最早由 Uber 开发,后来成为 Apache 顶级项目。

2023-05-24 11:00:45 83

原创 技术干货|如何利用 ChunJun 实现数据离线同步?

ChunJun 是⼀款稳定、易⽤、⾼效、批流⼀体的数据集成框架,基于计算引擎 Flink 实现多种异构数据源之间的数据同步与计算。ChunJun 可以把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从⽽为企业提供全⾯的数据共享,目前已在上千家公司部署且稳定运⾏。在之前,我们曾经为大家介绍过(点击看正文),本篇将为大家介绍姊妹篇,如何利⽤ ChunJun 实现数据的离线同步。

2023-05-19 10:49:46 164

原创 提高数据的安全性和可控性,数栈基于 Ranger 实现的 Spark SQL 权限控制实践之路

在 Ranger 中添加一个新服务的权限校验可分为两部分:第一部分是为 Ranger 增加新服务模块;第二部分是在新服务中增加 Ranger权限校验插件。● Ranger 增加新服务模块Ranger 增加新服务模块是在 Ranger Admin Web UI 界面增加对应服务模块,用来为对应服务添加对应资源的授权策略。

2023-05-17 11:33:42 106

原创 袋鼠云产品功能更新报告05期|应有尽“优”,数栈一大波功能优化升级!

在用户解析方式选择自定义解析方式时,支持用户上传自定义 jar 包对FTP中的文件进行切割拆分同步。

2023-05-12 14:08:02 126

原创 一文详解如何在 ChengYing 中通过产品线部署一键提升效率

首先对 ChengYing 的产品线部署进行一个“自我介绍”,共分为三个部分:● 支持用户自定义的产品线在 ChengYing 中,是以组件包的维度部署服务,比如一个 zookeeper 的产品包,会预先定义好 ZK 的包上传到 ChengYing 的系统当中,再去选择要部署的服务以及给 ZK 编排部署机器,以此完成部署。对于初学者来说,当需要部署多个服务,这些服务又有顺序依赖关系时,会不清楚部署的先后顺序,从而导致部署非常吃力。

2023-05-06 11:09:35 22

原创 袋鼠云“飞跃计划2.0”重磅发布:全面升级伙伴权益,共话数字生态

4月20日,袋鼠云成功举行了以“数实融合,韧性生长”为主题的2023春季生长大会。会上重磅发布了袋鼠云生态伙伴计划——,从商机、产品、联合方案及数据业务服务层面,与合作伙伴强强联手,共同打造,同时在联合营销、渠道政策、赋能培训、产品开放、技术服务、等方面全面升级伙伴权益,共拓市场蓝图。

2023-05-05 16:16:49 9

原创 数栈V6.0全新产品矩阵发布,数据底座 EasyMR 焕新升级

4月20日,袋鼠云成功举行了以“数实融合,韧性生长”为主题的2023春季生长大会。会上,袋鼠云自主研发的——数栈V6.0产品矩阵全新发布。对旗下大数据基础平台、大数据开发与治理、数据智能分析与洞察三大模块的全线产品进行全新升级,并重点发布了企业级数据计算与存储平台——自研。今年的集体学习会议上强调:“要打好科技仪器设备、操作系统和攻坚战,提升国产化替代水平和应用规模,争取早日实现用我国自主的研究平台、仪器设备来解决重大基础研究问题。袋鼠云作为国内领先的。

2023-04-27 10:47:48 47

原创 技术干货|如何利用 ChunJun 实现数据实时同步?

实时同步是 ChunJun 的⼀个重要特性,指在数据同步过程中,数据源与⽬标系统之间的数据传输和更新⼏乎在同⼀时间进⾏。在实时同步场景中我们更加关注源端,当源系统中的数据发⽣变化时,这些变化会⽴即传输并应⽤到⽬标系统,以保证两个系统中的数据保持⼀致。这个特性需要作业运⾏过程中 source 插件不间断地频繁访问源端。在⽣产场景下,对于这类⻓时间运⾏、资源可预估、需要稳定性的作业,我们推荐使⽤ perjob 模式部署。插件⽀持 JSON 脚本和 SQL 脚本两种配置⽅式,具体的参数配置请参考「ChunJu

2023-04-24 14:09:36 93

原创 袋鼠云春季生长大会圆满落幕,带来数实融合下的新产品、新方案、新实践!

4月20日,以“数实融合,韧性生长”为主题的春季生长大会圆满落幕。在春季生长大会中,袋鼠云带来了趋势下的最新行业沉淀、最佳实践经验和行业前瞻性的产品发布。从“数栈”、到低代码数字孪生世界“易知微”,再到可观测运维专家“云掣”,为广大用户带来了一场场精彩内容,共话数字未来!

2023-04-23 14:34:44 156

原创 新起点!大数据分布式可视化的 DAG 任务调度系统 Taier 正式发布1.4版本

我们很高兴向大家宣布,2023年4月14日,Taier 正式发布 1.4 版本。自2022年2月份 Taier 正式开源以来,收到了很多开发者和行业用户的积极评价,在诸多生产环境中已得到充分应用。Taier 1.4版本正是吸收了各类实践经验及大家的建议,进行了此次迭代优化。本次更新不仅包含了性能优化和稳定性的提升,还新增了各类任务类型、完善大量任务功能,优化使用场景,持续增强开源产品化技术能力和应用能力。

2023-04-20 16:58:03 32

原创 详解 Flink Catalog 在 ChunJun 中的实践之路

Catalog 提供元数据,如数据库、表、分区、视图,以及访问存储在数据库或其他外部系统中的数据所需的函数和信息。

2023-04-07 13:42:12 334

原创 EasyMR 安全架构揭秘:如何管理 Hadoop 数据安全

2017年,美国信用评级机构 Equifax 遭受黑客攻击,导致1.4亿个人的敏感信息泄露;2020年,发生了 SolarWinds 公司的软件供应链遭受恶意代码攻击事件,涉及多个行业和国家;2022年,网信办依据《数据安全法》等法律法规,对滴滴公司开出人民币80.26亿元的巨额罚款,对互联网企业敲响数据安全警钟。近年来,数据安全正在快速成为当今信息化时代一个备受关注的话题。在数字化快速发展的今天,各个领域都离不开数据的支撑,而数据安全问题也随之成为了一项重要的任务。

2023-04-06 10:21:36 144

原创 DTALK直播预约 | 数据资产管理:金融机构数据价值释放的必经之路

当前,数据对金融机构业务和发展的重要性日益凸显,释放数据生产力已经成为金融机构进行全面数字化转型的核心,这就要求金融机构以数据资产为纲不断提升自身数据资产管理能力。本期DTALK我们邀请到雅拓信息解决方案专家 尹晓中,为大家带来《数据资产管理——金融机构数据价值释放的必经之路》。

2023-03-31 10:50:49 23

原创 干货分享|袋鼠云数栈离线开发平台在小文件治理上的探索实践之路

日常生产中 HDFS 上小文件产生是一个很正常的事情,同时小文件也是 Hadoop 集群运维中的常见挑战,尤其对于大规模运行的集群来说可谓至关重要。是的基本使用单位,包含全部表和项目的相关信息,可以对表做相关的权限管理和,以及可以展示对应项目占用情况和其表的占用情况。数据地图可以帮助用户更好地查找、理解和使用数据。本文将结合两者,和大家聊聊数据地图中的小文件治理应该怎么做。

2023-03-29 10:31:09 17

原创 保姆级教程!玩转 ChunJun 详细指南

是一款稳定、易用、高效、批流一体的数据集成框架,⽀持海量数据的同步与计算。既可以采集静态的数据,比如 MySQL,HDFS 等,也可以采集实时变化的数据,比如 binlog,Kafka 等。同时也是一个支持原生 FlinkSQL 所有语法和特性的计算框架。经过5年的迭代和开发,ChunJun 已经帮助很多公司快速进行数据整合,并解决数据开发人员需要过多进行繁琐的数据抽取工作的问题,可以专注在企业业务场景的构建。

2023-03-24 11:17:18 126

原创 深入理解 Taier:MR on Yarn 的实现原理

我们今天常说的,它的理论基础来自于2003年 Google 发表的三篇论文,《The Google File System》、《MapReduce: Simplified Data Processing on Large Clusters》、《Bigtable: A Distributed Storage System for Structured Data》。这三篇论文分别对应后来出现的 HDFS,MapReduce, HBase。

2023-03-15 10:18:22 24

原创 从5分钟到60秒,袋鼠云数栈在热重启技术上的提效探索之路

更好地提高效率一直以来是袋鼠云数栈产品的主要目标之一。当前数栈客户的实时任务都是基于 Per-Job 模式运行的,客户在进行一些任务参数的修改之后,只能先取消当前任务,再选择 CheckPoint 恢复或者重新运行,整个过程需要3-5分钟,比较浪费时间。为了达到提高效率的目的,我们针对 Per-Job 任务的整体流程分析,进行了相关探索。下文和大家聊聊数栈在热重启技术方面的探索之路。热重启是什么?热重启技术旨在复用当前 Per-Job 集群的相关资源,减少重新创建集群以及申请资源的耗时,同时通过 Ch

2023-03-09 16:09:43 25

原创 DTALK直播预约 | 深度解析大资管行业数字化转型

在《商业银行理财业务监督管理办法》《关于规范金融机构资产管理业务的指导意见》等理财新规、资管新规的要求下,大资管行业结构持续优化,存量金融风险明显收敛。此外,也促使资管行业在产品、风险、投研、客户、营销、管理、服务等各个层面加速数字化转型。本期DTALK我们邀请到袋鼠云金融行业解决方案专家 范云浩,为大家带来《从资管新规到数据治理,深度解析大资管行业数字化转型》。报名链接:https://fs80.cn/su8wl9先给大家小小剧透一下分享大纲:一、数据成为理财资管行业数字化转型的重要工具数据如

2023-03-09 15:09:40 43

原创 推进全链业务深度数字化,为产业综合服务插上数字化翅膀

数据治理是推动大型集团企业转型升级、提升竞争优势、实现高质量发展的重要引擎。通过全链数据结构化,实现业务对象、业务规则、业务流程数字化,推进全链业务深度数字化,夯实数据运营底座。厦门国贸集团股份有限公司(简称“国贸股份”)是国有控股上市公司,同时也是首批全国供应链创新与应用示范企业,在“十四五”规划期内以聚焦供应链管理核心主业作为主要战略发展方向。供应链运营管理以大宗商品贸易为主,其交易往往具有交易量巨大、交易环节复杂、风险交易难识别、风险客商难管控等痛点。随着国贸股份数字化转型不断深化,数据应用方面的

2023-03-09 14:21:29 131

原创 详细剖析|袋鼠云数栈前端框架Antd 3.x 升级 4.x 的踩坑之路

袋鼠云数栈从2016年发布第⼀个版本开始,就始终坚持着以技术为核⼼、安全为底线、提效为⽬标、中台为战略的思想,坚定不移地⾛国产化信创路线,不断推进产品功能迭代、技术创新、服务细化和性能升级。在数栈过去的产品迭代中受限于当前组件的版本,积累了很多待解决的问题,随着新的功能需求不断增加,很多原先的组件以及交互设计需要进行优化。2月,伴随着数栈 UI5.0 的焕新升级,数栈前端团队一起将组件框架 antd 从 v3.x 升级到了 v4.x,更新组件的 UI,提升产品的交互体验,使数栈产品能够更加灵活地适应未来

2023-03-03 17:37:11 343

原创 《数据治理行业实践白皮书》正式发布,开辟数据治理新范式(附下载)

近日,作为首届未来数商大会协办单位之一,袋鼠云承办“首届未来数商大会——业数融合创新论坛”,与参会嘉宾共同探讨数据驱动企业业务增长提效的新思路。袋鼠云联合创始人、易知微CEO 宁海元发表主题演讲《数智视融合,构建数字产业生态链,释放数据价值》,并带来了本次论坛的重头戏,首发《数据治理行业实践白皮书》。当前许多企业坐拥海量数据,却仍停留在数据治理的初级阶段,只有先将数据治理好,形成数据资产中心,才能进一步明确数据的权属以及实现后续的数据要素流通交易。因此,如何实现“用数据说话、用数据决策、用数据管理、用数据

2023-03-02 16:47:54 272

原创 ChunJun 1.16 Release版本即将发布,bug 捉虫活动邀您参与!

亲爱的社区小伙伴们,历时数月,我们很高兴地宣布,ChunJun 即将迎来 1.16 Release 版本的正式发布。在新版本中,ChunJun 新增了一批常用功能,进行了多项功能优化和问题修复,并在用户使用体验上进行了极大地改善。有17位Contributor 为 ChunJun 提交了多项优化和修复,感谢因为有你们才让 ChunJun 变得更好!ChunJun 1.16 版本目前已经发布到master,需要试跑一个月再发布 release 版本。在 1.16 版本中,我们整理了项目 maven 依赖,优

2023-03-01 10:57:09 194

原创 袋鼠云高教行业数字化转型方案,推进数字化技术和学校教育教学深度融合

在当前的数字化转型浪潮下,“基础设施、配套设备、应用探索”的数字校园1.0阶段即将步入尾声、亦或已经完结,不同地区和类型的高校通过各类信息化系统和基础设施已经初步实现了业务数字化,整个数字校园的信息基础设施底座已有一定基础、信息时代教育治理新模式正在逐步呈现、信息技术支持科研创新初见成效。接下来,数字校园2.0阶段需要通过数据价值挖掘实现数据业务化,实现数字技术应用于教学,到技术与教育教学深度融合的跨越,形成新的数字时代的教育体系。《中国教育现代化2035》提出:建设智慧校园,统筹建设一体化、智能化教学

2023-02-20 11:55:18 273

原创 袋鼠云产品功能更新报告04期丨2023年首次,产品升级“狂飙”

新的一年我们加紧了更新迭代的速度,增加了数据湖平台EasyLake和大数据基础平台EasyMR,超40项功能升级优化。我们将继续保持产品升级节奏,满足不同行业用户的更多需求,为用户带来极致的产品使用体验。以下为袋鼠云产品功能更新报告第四期内容,更多探索,请继续阅读。数据湖平台1.【元数据管理】Catalog创建在【元数据管理】页创建一个Catalog,填写Catalog名称、Hive MetaStore、Spark Thrift。一个Calalog只允许绑定一个Hive MetaStore,Spa

2023-02-17 14:26:39 387

原创 倒带ChunJun,同心前行|2022年度回顾&2023年共建规划

ChunJun是一个开始于2018年的批流一体数据集成框架项目,原名FlinkX。2022年2月22日,在FlinkX进行初版开源的整整四年后,技术团队决定对FlinkX进行整体升级,并更名为ChunJun,希望为大家真正提供一个稳定、高效、易用的批流一体的数据集成框架。2022年的ChunJun茁壮成长,如今已经是一个由68多位贡献者协同开发、拥有3437个star的人气项目。项目地址:https://github.com/DTStack/chunjunChunJun 项目进展Star数:3437

2023-02-14 14:08:46 290

原创 袋鼠云数栈UI5.0焕新升级,全新设计语言DT Design,更懂视觉更懂你!

数栈作为袋鼠云打造的一站式数据开发与治理平台,从2016年发布第⼀个版本开始,就始终坚持着以技术为核⼼、安全为底线、提效为⽬标、中台为战略的思想,坚定不移地⾛国产化信创路线,不断推进产品功能迭代、技术创新、服务细化和性能升级。伴随业务的⻜速发展,数栈设计团队也启动了针对数栈产品的体验升级计划,从开始策划到最后应⽤到各个⼦产品,共经历了五个阶段:策划⽅案制定、设计⽅案落地、转化设计语⾔、Theme&RC 升级、⼦产品实施。本⽂将为大家详细聊聊在数栈 UI 5.0 体验升级中,数栈设计团队的设计思路

2023-02-08 10:36:51 48

原创 一看就懂!任务提交的资源判断在Taier中的实践

Taier 介绍Taier 是袋鼠云开源项目之一,是一个分布式可视化的DAG任务调度系统。旨在降低ETL开发成本、提高大数据平台稳定性,大数据开发人员可以在 Taier 直接进行业务逻辑的开发,而不用关心任务错综复杂的依赖关系与底层的大数据平台的架构实现,将工作的重心更多地聚焦在业务之中。项目地址:https://github.com/DTStack/TaierTaier 资源判断Taier 基于插件式架构设计,用户在界面开发任务并提交运行。提交运行插件又划分为worker-plugins、da

2023-02-01 10:39:09 73

原创 无监控,不运维!深入浅出介绍ChengYing监控设计和使用

监控系统俗称「第三只眼」,几乎是我们每天都会打交道的系统,它也一直是IT系统中的核心组成部分,负责问题的发现以及辅助性的定位。ChengYing作为一站式全自动化全生命周期大数据平台运维管家,自然也提供大数据产品的监控服务。这篇文章,将为大家系统性地介绍ChengYing监控的设计和使用,带大家进一步了解ChengYing。常见监控系统比较目前市面上主流大众都在用的监控系统主要有zabbix、openfalcon、prometheus,这三者都有各自适合的使用场景。下面来看下这三种监控系统各自的优缺点

2023-01-09 14:18:03 164

原创 DAG任务调度系统 Taier 演进之道,探究DataSourceX 模块

熟悉Taier的小伙伴们应该都知道,在11月7日发布的Taier1.3新版本中,我们融合了「DataSourceX 模块」。这是十分重要的一个变化,移除Taier外部插件依赖,新增数据源插件相关特性,支持后续Taier对接更多的RDBMS类型的SQL任务。本篇文章,就带大家详细了解一下DataSourceX 的作用及设计。DataSourceX 模块的作用为什么说 DataSourceX 是一个非常重要的模块?在 Taier 中 RDB SQL 任务的运行,向导模式的数据同步、实时采集、FlinkS

2022-12-28 10:12:25 494 1

原创 Iceberg在袋鼠云的探索及实践

“数据湖”、“湖仓一体”及“流批一体”等概念,是近年来大数据领域热度最高的词汇,在各大互联网公司掀起了一波波的热潮,各家公司纷纷推出了自己的技术方案,其中作为全链路数字化技术与服务提供商的袋鼠云,在探索数据湖架构的早期,就调研并选用了Iceberg作为基础框架,在落地过程中深度使用了Iceberg并进行了部分改造,在这个过程中,我们积累出了一些经验和探索实践,希望通过本篇文章与大家分享,也欢迎大家一起共同讨论。一、为什么选择IcebergIceberg作为Apache基金会下的一个顶级项目,是业界公认的

2022-12-20 19:59:40 363

原创 Kerberos身份验证在ChunJun中的落地实践

Kerberos,在古希腊神话故事中,指的是一只三头犬守护在地狱之门外,禁止任何人类闯入地狱之中。那么在现实中,Kerberos指的是什么呢?一、Kerberos介绍01 Kerberos是什么根据百度词条释义,Kerberos是一种计算机网络授权协议,用来在非安全网络中,对个人通信以安全的手段进行身份认证。Kerberos旨在通过密钥加密技术为客户端/服务器应用程序提供身份验证,主要用在域环境下的身份验证。在此之前,通常只有服务器的运维管理人员在配置Active Directory之类的东西时才

2022-12-16 11:46:53 232

原创 从数据治理到数据应用,制造业企业如何突破数字化转型困境丨行业方案

我国制造业拥有31个大类、179个中类和609个小类,是全球产业门类最齐全、产业体系最完整的制造业。作为世界工厂,中国制造业在拉动本国经济增长、促进本国就业等方面贡献卓越,更是我国民生消费的底层基础。同时,中国从原来的原料出口国,逐步转为工业品中间品、中间品等普通技术密集型产品的国家,为其他国家消费品的满足提供坚实支撑。随着数字化浪潮汹涌而至,制造业紧随金融、信息通讯行业,正加速进入数字化转型的深水区。制造业数字化转型价值制造业数字化转型的价值体现在:•应用数字技术可以降低企业的成本去年国际供应

2022-12-15 10:49:30 627

原创 喜讯+1!袋鼠云数栈技术团队获“2022年度优秀开源技术团队”

近日,在“开源中国(OSCHINA)”开展的年度评选中,袋鼠云数栈技术团队凭借在2022年间的技术分享频率及质量、运营积极性等多方面的表现,荣获“2022年度优秀开源技术团队”的称号,这也是袋鼠云数栈技术团队连续第二年获得此奖项。开源中国作为国内最大的开源技术交流社区,一直不遗余力地助力着国内开源发展,不断向开发者传播最新开源与开发技术信息,让更多开发者关注到优秀的开源项目与技术。袋鼠云数栈技术团队本次能有幸入选“2022年度优秀开源技术团队”,这不仅是团队本身的努力,更是所有社区成员与我们共同建设的

2022-12-15 10:19:50 277

原创 杭州联合银行 x 袋鼠云:打造智能标签体系,助力银行大零售业务转型

上线后,支行及业务部门已创建多个客群用于营销,为我行客户精细化管理打下了良好基础。”2021 年,联合银行就已搭建了,围绕平台搭建了数据研发平台、大数据调度平台及大数据服务平台,提高了数据管理与服务效率。为进一步发挥优势与数据价值,为大零售转型项目及十四五战略落地提供数据能力,快速响应业务需求,联合银行启动数据平台优化改造二阶段项目建设。流量红利日渐消退的存量时代,银行要想深度钻取客户的最大价值,就离不开。

2022-12-13 10:28:28 301

原创 数据安全新战场,EasyMR为企业筑起“安全防线”

2020年1月,时间跨度长达14年的,微软2.5亿条客户服务和支持记录在网上泄露;同年4月,微盟发生史上最贵“删库跑路”事件,造成微盟市值一夜之间缩水约24亿港币;今年7月,网信办依据《数据安全法》等法律法规,对滴滴公司开出人民币80.26亿元的巨额罚款,对互联网企业敲响数据安全警钟。数据作为互联网的重磅资源,当今重要的“生产要素”及核心竞争力,已经获得了立法上的认可。随着2021年9月1日,中国第一部有关数据安全的法律《数据安全法》正式施行,我国的数据安全制度已经进入了一个新阶段。不同于网络安全侧

2022-12-08 17:40:27 671 1

原创 国产自研、安全、高可用——袋鼠云大数据基础平台EasyMR筑基企业数字化转型

近年来,国际形势的风云变幻,中美双边关系的恶化,自2013年“棱镜门”事件之后,又一次警示国人,对于科技领域,只有自己掌握核心关键技术,实现自主可控,才能摆脱越来越频繁的“卡脖子事件”,保证企业和国家信息安全。俗话说“基础不牢,地动山摇“。大数据基础平台什么?是打地基的,是重中之重,地基扎得越深、打得越牢,上面的建筑才能越稳定。可以说,数字化转型的“万丈高楼”起于基础平台,具备自主可控的平台建设能力,是真正意义上一切的前提。袋鼠云今年7月最新推出自研大数据基础平台EasyMR,该产品提供Hadoop、H

2022-12-01 18:56:39 713

原创 开源共建 | TIS整合数据同步工具ChunJun,携手完善开源生态

TIS整合ChunJun实操B站视频:https://www.bilibili.com/video/BV1QM411z7w5/?spm_id_from=333.999.0.0一、ChunJun 概述ChunJun是一款易用、稳定、高效的批流统一的数据集成框架,可基于实时计算引擎Flink实现多种异构数据源之间的数据同步与计算,既可以采集静态的数据,比如MySQL,HDFS等,也可以采集实时变化的数据,比如Binlog,Kafka等。目前的核心功能包括:· 多源异构数据汇聚作为一个开放式系统,用

2022-11-30 11:07:09 574

原创 袋鼠云数据湖平台「DataLake」,存储全量数据,打造数字底座

一、什么是数据湖?在探讨数据湖技术或如何构建数据湖之前,我们需要先明确,什么是数据湖?数据湖的起源,应该追溯到2010年10月。基于对半结构化、非结构化存储的需求,同时为了推广自家的Pentaho产品以及Hadoop,2010年Pentaho的创始人兼CTO James Dixon首次提出了数据湖的概念。数据湖概念一经提出,便受到了广泛关注,人们发现此概念代表了一种新的数据存储理念,海量异构数据统一存储可以很好地解决企业数据孤岛问题,方便企业数据管理与应用。「技术概念的提出,本质都是为了业务场景服务

2022-11-25 10:56:28 182

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除