原理 数据溯源_什么是数据溯源?

1 数据溯源综述

1.1 概念和定义

数据溯源(data provenance)是一个新兴的研究领域,诞生于 20 世纪 90 年代。当初,某些文献将其称为数据志或数据档案,后来,大部分文献将其命名为数据起源,有追踪数据的起源和重现数据的历史状态之意。本文称其为数据溯源,从应用的角度出发,强调追踪的过程和方法。

目前,数据溯源还没有公认的定义,因应用领域不同而定义各异。我们参考一些学者给出的定义:

1、将数据溯源定义为从源数据到数据产品的衍生过程信息;

2、在数据库领域将其定义为“数据及其在数据库间运动的起源”;

3、数据溯源是对目标数据衍生前的原始数据以及演变过程的描述;

4、数据溯源是一种元数据,用来记录工作流演变过程、标注信息以及实验过程等信息。

在其它一些领域中还有其它一些叫法: 如数据族系( Data Lineage) 、数据系谱( Data Pedigree) 、数据来源( Data Origin) 、数据世系等。

数据溯源定义为记录原始数据在整个生命周期内( 从产生、传播到消亡)的演变信息和演变处理内容。我们认为,Data Provenance 应该翻译成“数据溯源”,强调的是一种溯本追源的技术,根据追踪路径重现数据的历史状态和演变过程,实现数据历史档案的追溯。

1.2 数据溯源模型

建立一个数据模型是数据溯源的关键技术。根据模型可以初步确定数据溯源的大体步骤和基本思路。

从数据溯源信息管理的角度出发,提出异构数据的数据溯源概念。即采用横轴表示时间(t)、纵轴表示过程(p)、z轴表示数据的异构分布特性。将数据溯源信息保存到不同的数据库中,形成携带溯源信息的异构数据库。通过数据库接口以及数据转换工具汇聚成目标数据库。这个过程的

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值