数据溯源
标注法,反向查询法,数据追踪方法。双向指针追踪法,位向量存储定位
数据溯源:data provenance / datatracing
数据溯源技术最常见的一种算法就是标注法[49],标注法主要是给数据做一定的标记信息,将标注添加到原始数据之外的地方。一旦发生泄漏事件,可以在不干扰原始数据使用的前提下起到溯源作用。标注是保留原始数据的同时,引入附加数据,标注中可以记载着数据的来源以及数据的完整演变过程标注类似于商品的标签,在流转过程中标签是随着商品一起流转的,而标注信息也是随着数据进行流转。在数据发生泄漏以后,通过查看数据的标注信息可以确定出泄漏的源头。DBNotes,Annotea.BioDAS,Annotea是W3C领导下的一个项目,它致力于用语义网络的技术来管理Web上的标注,Annotea管理的标注与Web文档是分离的,当Web文档在转移的时候,标注并不会变,除非用户明确地编辑标注,因而不存在标注的传播等问题,显然这不能满足数据起源研究的需要。BioDAS是一个管理基因序列数据的标注系统,该项目也是为了使得研究人员可以更好地共享标注信息,并没有记录其起源信息。文献[13]代表了标注管理研究的当前水平,该文介绍了一
种基于关系的管理标注的数据模型,其中每个数据项(属性)都带有标注,当数据在转移的时候,标注能够随着数据一起转移。在实现时,该系统将标注和其他数据一起存储,目前只包含最简单的信息,每个属性都有一个附加的“虚拟”列用于存储这些标注。这种
存储模式的问题是冗余比较大,而且事实上要求修改关系模式,这在很多情况下是不可能的。并且只支持属性粒度上的标注。
数字版权保护、检测、药物试验、企业财务和国家情报等领域