dataCompare
文章平均质量分 69
开源大数据比对平台
诸葛子房_
先后就职于京东和BAT,在大数据领域有多年工作经验;
Apache Griffin&&Apache Zeppelin Contributor,dataCompare和dataService作者
展开
-
dataCompare核心功能之数据探针
然后发现做完之后,怎么数据各种不对,取不到想要的数据,比如说:业务上说明明一个字段为空比例非常少(1%以内),但是加工出来的数据问题非常多?比如说:空值占比接近30%,然后报表显示的结果就各种问题,然后又往上排查发现,原来是别人提供的数据,或者采集的数据有问题。接到新的数据需求或者任务的时候,最开始应该需要做一下数据调研,即数据探查(也就是标题上提的数据探针),发现数据潜在的问题。(2)将数据探测标准化,避免不同的数据开发人员采用不同的探测标准,做标准统一。抽表,清洗,分层,建模?字段最大长度、最小长度。原创 2023-03-20 20:13:06 · 809 阅读 · 0 评论 -
dataCompare大数据对比之异源数据对比
因此,能够非常明显的看到目前大数据对比平台功能只适用于数据迁移中的对比,而不适用于数据架构升级,比如说:本来Hive 存储的数据由于架构升级需要迁移到Iceberg 或者Doris 等等数据存储中。比如说:由于数据架构升级,之前的Hive(user_info_hive) 数据 升级到用Doris(user_info_doris) 进行存储(要求:表结构不变,只是数据存储升级)(1)最简单的方案,把数据弄到一起,也就是转成同源数据对比,但是这样明显很浪费时间,需要数据同步,同时也浪费存储。原创 2023-01-06 14:50:04 · 1797 阅读 · 5 评论 -
开源大数据比对平台(dataCompare)新版本发布
前文介绍了开源大数据比对平台设计和实践,最近将整体业务流程进行了完善和开发。(2)数据指针探测----枚举值探测、范围探测、数值探测、主键取模探测。数据库配置信息页面(目前已经实现了MySQL、Hive)job配置信息页面(选择数据源和表以及主键和对比字段)(1)低代码简单配置完成数据比对核心功能。对比结果页面展示(量级对比、一致性对比)(2)数据量级比对、数据一致性比对。系统主页(系统功能和技术栈介绍)(3)数据比对任务定时自动调度。(4)对比结果自动发送邮件报告。(1)差异case发现。原创 2022-12-14 13:58:12 · 858 阅读 · 0 评论 -
开源大数据比对平台设计与实践—dataCompare
在大数数据开发过程中,经常会遇到数据迁移或者升级的工作,或者不同的业务方根据需求加工了一下数据,但是认为两边的数据还是一样,因此会出现需要去手动比对数据。根据以往的工作经历,开发了一个大数据比对平台,用来辅助验证数据,命名为dataCompare。如果没有平台的话,需要手动写一些SQL脚本进行去比对的,而且也没有一个评估标准。(1)采用界面交互、勾选的方式或者低代码的方式即可实现自动化数据校验对比。(3)一套统一的数据验证方案,达到数据校验比对的标准规范。(1)验证数据、数据比对,浪费极大的人力成本。...原创 2022-08-01 20:11:42 · 1632 阅读 · 4 评论 -
从0到1介绍一下开源大数据比对平台dataCompare
在大数据领域也已经工作了多年,无论所待过的大公司还是小公司,都会遇到集群升级迁移过程中据搬迁等相关工作,经常会碰到搬迁之后,搬迁的数据是不是能对的上呢?两边数据究竟是不是一致的呢?如果不一致,那又有哪些差异呢?能不能更快地找到差异解决问题呢?原创 2022-12-21 11:02:19 · 4307 阅读 · 2 评论