今天跟一个测试同事聊天:
我:最近忙什么项目呢?
他:在测大数据血缘
我:啥?
他:血缘啊
我:啥血缘?
他:大数据血缘啊
我:血缘是啥?
他:就是数据血缘啊
我:...
看看,天就是这么被聊死的,我忍不住内心OS(怪不得你秃顶还没女朋友)
我赶紧回来问问 google,分析了各路答案之后,可以总结成两句话:
- 通常我们会对原始数据进行多个步骤的各种加工,最后产生出新的数据,在这个过程中会产生很多表,这些数据表之间的链路关系就可称为大数据血缘。
- 大数据血缘测试,就是测试数据流转过程中的每个环节的数据质量。
同时,数据血缘还有几个同义词:
Data Lineage 数据血缘(数据血统) = Data Provenance 数据起源 = Data Pedigree 数据谱系
在现实世界中,我们每个个体都是祖先通过生育关系一代代孕育而来,这样就形成了我们人类的各种血缘关系。
在数据信息时代,每时每刻都会产生庞大的数据,即我们通常说的大数据,对这些数据进行各种加工组合、转换,又会产生新的数据,这些数据之间就存在着天然的联系,我们把这些联系称为数据血缘关系。
直白点说,数据血缘就是指数据产生的链路关系,就是这个数据是怎么来的,经过了哪些过程和阶段。
下面举个通俗点的例子: