数睿通2.0功能发布—集成Doris、数仓动态配置、质量任务完善、接入速度优化

引言

数睿通 2.0 数据中台迎来了 6 月份的更新,本次更新集成了 Doris 数据库,可用于数据集成,数据开发等模块。过去数仓使用的是 TiDB,新版本可以根据自身需求灵活配置租户的数据仓库。质量任务模块也得到了完善,可以基于规则配置进行质量检测,生成质量任务,查看错误日志等。同时优化了数据集成组件,同步速度得到了进一步提升。

集成 Doris

Apache Doris 是一个基于 MPP 架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。基于此,Apache Doris 能够较好的满足报表分析、即席查询、统一数仓构建、数据湖联邦查询加速等使用场景,用户可以在此之上构建用户行为分析、AB 实验平台、日志检索分析、用户画像分析、订单分析等应用。

Doris 的具体应用,生态等,大家可以通过查阅官方文档快速了解:Doris官方文档

本次更新集成了 Doris 数据库,可以在数据集成和数据开发模块进行使用,同时也可以选择 Doris 作为租户的数据仓库。
doris测试
doris查询

数仓动态配置

之前数睿通的数据仓库(中台库)默认使用的是 TIDB 并且无法灵活更换,实际生产中往往需要适配多种数仓产品,所以本版本实现了数仓的动态配置,目前支持的数据库有 TiDB/Oracle/PostgreSql/Greenplum/Doris,每个租户可以设置不同的数据仓库,租户之间数据隔离。
数仓
数仓动态配置

质量任务完善

上个版本数据质量模块完成了数据规则和规则配置,功能并不完整,本版本的数据质量模块补充了质量任务的功能,通过启用规则配置,可以一次性或定时进行质量检测,生成质量任务,帮助我们定位和查看问题数据。质量任务后台采用工厂设计模式,用户可以根据自身需求添加规则检测适配器,定制自己的质量检测规则。
规则配置
质量任务
检测记录

接入速度优化

之前版本的数据集成组件使用的是 jdbcTemplate 进行批量操作,jdbcTemplate 的批量操作方法进行了大量的封装操作,中间性能有一定损耗,所以本版本把批量操作改为了原生的 Jdbc,最大程度上提升同步速率,经测试,同步速度提升约 30% 左右。

之前增量同步(基于主键排序全量比对)在日期类型的比对上有所纰漏,导致不同数据库的日期值明明相同,却被标记为不同,造成了无谓的更新操作,本版本对此问题进行了修复,大幅提升了比对同步效率。

后续版本会添加根据增量字段增量同步表数据,根据指定 sql 同步数据的功能,帮助用户可以更加灵活的进行数据集成操作。
批量操作

结语

本次中台的新功能介绍就到此结束了,目前数据资产和数据集市尚处于开发之中,由于各种因素影响,开发进度比预计的慢了一个多月,纸上得来终觉浅,绝知此事要躬行,数据中台并不是一蹴而就的东西,需要细细打磨,耐心思考,才能开发出它应有的价值,需要不断完善,不断优化才行。

目前源码,部署指南,讲解视频等相关资料是付费获取的,价格相比其他同系列的产品连个零头都不到,可以说是非常良心了。我创建了一个知识星球,星球内可以获取到数睿通 2.0 的最新源码资料等,功能发布之后也会第一时间分享。

感兴趣的朋友请关注公众号 螺旋编程极客 加入星球,我们一起成长,一起进步。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
实战Flink Doris实时数仓是指利用Flink作为实时计算引擎,将数据实时计算结果写入到Doris中,构建具有实时数据处理和分析能力的数据仓库。 首先,Doris是一款开源的分布式 SQL 数据库,具有高可靠性、低延迟、高扩展性等特点。通过Doris,我们可以构建和管理多维度的数据集合,支撑实时分析和查询。 而Flink是一个流式计算引擎,具有低延迟、高吞吐、Exactly Once等特点。它可以实时处理和计算大规模的数据流,并将计算结果输出到不同的数据存储,如Doris。 实战Flink Doris实时数仓的步骤如下: 1. 数据接入:通过Flink的流式数据接入功能,将数据源接入到Flink中。数据源可以是Kafka、消息队列等。 2. 实时计算:使用Flink提供的实时计算功能,对接入的数据进行处理和计算。Flink提供了丰富的函数库,可以进行数据转换、数据筛选、聚合、窗口计算等操作。 3. 数据写入:将实时计算的结果写入到Doris中。可以通过Doris提供的JDBC或者API接口,将计算结果写入到Doris的数据表中。 4. 数据查询和分析:通过Doris提供的SQL接口,可以对实时计算结果进行查询和分析。Doris支持复杂的查询语句和聚合操作,可以快速地进行多维度数据分析。 5. 数据展示和可视化:通过可视化工具,将Doris中的数据进行可视化展示,以便业务人员进行数据分析和决策。 实战Flink Doris实时数仓的优势在于实现了实时数据的处理和分析,可以快速地响应业务需求。同时,Flink的低延迟和高吞吐能力,以及Doris的高可靠性和扩展性,可以支撑大规模数据的实时处理和存储。通过构建实时数仓,企业可以更好地利用数据,追踪业务动态,并进行实时决策。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值