数据溯源-标注方法

数据溯源
标注法,反向查询法,数据追踪方法。双向指针追踪法,位向量存储定位

数据溯源:data provenance / datatracing

数据溯源技术最常见的一种算法就是标注法[49],标注法主要是给数据做一定的标记信息,将标注添加到原始数据之外的地方。一旦发生泄漏事件,可以在不干扰原始数据使用的前提下起到溯源作用。标注是保留原始数据的同时,引入附加数据,标注中可以记载着数据的来源以及数据的完整演变过程标注类似于商品的标签,在流转过程中标签是随着商品一起流转的,而标注信息也是随着数据进行流转。在数据发生泄漏以后,通过查看数据的标注信息可以确定出泄漏的源头。DBNotes,Annotea.BioDAS,Annotea是W3C领导下的一个项目,它致力于用语义网络的技术来管理Web上的标注,Annotea管理的标注与Web文档是分离的,当Web文档在转移的时候,标注并不会变,除非用户明确地编辑标注,因而不存在标注的传播等问题,显然这不能满足数据起源研究的需要。BioDAS是一个管理基因序列数据的标注系统,该项目也是为了使得研究人员可以更好地共享标注信息,并没有记录其起源信息。文献[13]代表了标注管理研究的当前水平,该文介绍了一
种基于关系的管理标注的数据模型,其中每个数据项(属性)都带有标注,当数据在转移的时候,标注能够随着数据一起转移。在实现时,该系统将标注和其他数据一起存储,目前只包含最简单的信息,每个属性都有一个附加的“虚拟”列用于存储这些标注。这种
存储模式的问题是冗余比较大,而且事实上要求修改关系模式,这在很多情况下是不可能的。并且只支持属性粒度上的标注。

数字版权保护、检测、药物试验、企业财务和国家情报等领域因此起源链的完整性、起源记录的机密性、不可否认性以及认证性是整个数据起源安全问题的主要方面于标注的溯源,是对数据源和数据产生过程进行标注(如元数据、注释和声明等),并将标注信息与数据信息一起存储和传播,溯源时通过查询目标数据的标注来获得数据的溯源信息;
数据溯源计算也分为三个层次:模式级溯源计算、字段级溯源计算和元组级溯源计算。模式级溯源计算目标是获取目标关系表的来源表集合及其转换过程;字段级溯源计算目标是获取特定关系字段的源表字段和目标表字段在数据转换过程中的映射关系,它是模式级溯源信息的细化;元组级溯源计算目标是获取对产生目标关系元组有贡献的来源元组集合粗粒度的溯源信息可以在 SQL 等查询语句编译解析后遍历其语法树子句节点获取,而细粒度的溯源信息则需在查询语句执行过程中通过标注传播信息来获取[60]
在简单的查询语句或不复杂的应用场景下,许多成熟的工具或系统(如 DBNotes[61],Mondrian[62],Trio[63]等)都能较好地支持溯源计算。
另外一个问题是标注如何传播,由于标注携带了起源信息,就必须让标注随着数据传播,否则就失去了意义。标注传播可以是正向传播,即随着查询传播到视图(或新数据库)中,也可以是逆向传播,即将视图上的标注传播到基表中,标注的正向传播需要得到查询语言的支持(称为“标注感应”),遗憾的是事实并不如此,因此文献[13]对SQL进行了改造,加入了PROPAGATE语句,称为pSQL语言,在pSQL语言的支持下,用户能够控制标注的自动传播。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Nefelibat

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值