什么是大数据血缘?

今天跟一个测试同事聊天:

我:最近忙什么项目呢?
他:在测大数据血缘
我:啥?
他:血缘啊
我:啥血缘?
他:大数据血缘啊
我:血缘是啥?
他:就是数据血缘啊
我:...

看看,天就是这么被聊死的,我忍不住内心OS(怪不得你秃顶还没女朋友)

我赶紧回来问问 google,分析了各路答案之后,可以总结成两句话:

  • 通常我们会对原始数据进行多个步骤的各种加工,最后产生出新的数据,在这个过程中会产生很多表,这些数据表之间的链路关系就可称为大数据血缘。
  • 大数据血缘测试,就是测试数据流转过程中的每个环节的数据质量。

同时,数据血缘还有几个同义词:

Data Lineage 数据血缘(数据血统) = Data Provenance 数据起源 = Data Pedigree 数据谱系

在现实世界中,我们每个个体都是祖先通过生育关系一代代孕育而来,这样就形成了我们人类的各种血缘关系。

在数据信息时代,每时每刻都会产生庞大的数据,即我们通常说的大数据,对这些数据进行各种加工组合、转换,又会产生新的数据,这些数据之间就存在着天然的联系,我们把这些联系称为数据血缘关系。

直白点说,数据血缘就是指数据产生的链路关系,就是这个数据是怎么来的,经过了哪些过程和阶段。


下面举个通俗点的例子:

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值