Supporting Fine-Grained Data Lineage in a Database Visualization Environment论文阅读)

在数据库可视化环境中支持细粒度的数据沿袭

论文背景

基准沿袭记录其处理历史记录。由于此类信息可用于跟踪已处理数据集中的异常源和错误,因此对于用户来说,对于包括异常情况调查和调试在内的各种应用程序来说,这是非常有价值的。传统的数据沿袭方法依赖于元数据。但是,元数据无法很好地扩展到细粒度的谱系,尤其是在大型数据集中。例如,将从处理后的数据集中的特定浮点值跟踪到源数据集中的特定卫星图像像素所需的所有跟踪信息存储起来是不可行的。在本文中,我们提出了一种支持细粒度数据沿袭的新方法。我们的方法不是依靠元数据,而是使用有限的有关处理运算符和基础数据的信息来惰性计算谱系。我们介绍了弱反演和验证的概念。尽管我们的系统不能完美地反转数据,但它使用了弱反转和验证功能,可以为生成的谱系提供许多保证。我们提出了一种在对象关系数据库管理系统中实现弱反转和验证的设计方案

例子

假设一位科学家对大气数据集应用了一系列处理步骤,然后在数据库可视化系统中查看了旋风轨迹图的结果。科学家发现异常,并希望识别导致意外值的输入数据。数据库系统可能能够使用元数据以粗略的级别跟踪异常的沿袭。但是,从使用这种方法在处理后的数据集中到源数据集中的特定数组元素的特定气旋轨迹点是不可行的;所需的元数据量将太大。
这种情况在计算科学中很常见。在本文中,我们提出了一种动态地以细粒度导出基准沿袭的方法。我们的方法不是依赖元数据,而是结合了有关处理操作员的有限知识和基础数据分析。当使用用户定义的功能集成到数据库服务器中时,该方法最有效,但也可以在数据库环境之外实现。在本文中,我们从抽象属性的角度描述我们的方法,然后从实现的角度描述我们的方法。
通常,基准的谱系包括其整个处理历史。这包括其来源(例如,基本数据集的标识符,记录仪器,仪器的操作参数)以及应用于其的所有后续处理步骤(算法和各自的参数)。如果将处理历史视为数据流图,则沿袭的许多应用将变得显而易见。例如,沿袭信息允许用户跟踪派生程序在衍生的数据集中产生的影响性故障源数据或越野车程序。它还允许用户调查产生异常数据集的源数据或程序。没有数据沿袭,这样的调查可能很困难或不可能:用户可能不熟悉由专业程序员编写的处理步骤。此外,特别是在涉及大数据集的情况下,通过大量的处理追溯非常耗时
随着数据量的增加和处理数据集的广泛传播,数据沿袭的重要性日益增长。对数据沿袭的支持量也在增加。例如,新的科学数据标准(例如,空间数据传输标准[9],空间归档和交换格式[13]和数字空间元数据的内容标准草案[5])通常是盟友加入了对血统的某种支持。
最近的科学工作流程系统(例如GIS数据库,例如Geolineus [6]和地球物理数据库,例如BigSur [3])通过在工作流程基础架构中提供直接支持来实现沿袭跟踪过程的自动化。
例如,BigSur可以提供产生给定卫星图像的整个处理步骤图,或提供使用给定处理步骤产生的所有图像的列表。到目前为止,数据沿袭的研究和开发假设可以完整地存储完整的数据历史记录,并将其存储为一条元数据。基于元数据的数据沿袭方法假定相对粗粒度的信息就足够了。
例如,地球科学家可以轻松负担得起,例如,他们每天收到的100个6000x6000栅格图像的100个字节的元数据。甚至在数据库领域之外(例如,在数据流程序调试[15]等领域),研究人员都认为数据标记的时空成本是可以接受的。
但是,某些科学应用程序要求沿袭的粒度要比以前考虑的要精细得多-我们知道有些应用程序要求沿袭图像像素级别的沿袭[2]。
想象一下,一位科学家正在调试使用许多栅格图像的重新组合(插值)合成的应用程序。该用户可能需要知道在合成图像的过程中使用了哪些原始光栅图像的哪些像素。由于源数据的性质以及图像处理和重新网格化算法的性质,我们可能无法规范许多数据相关性信息。我们是否可以合理地负担每个像素60个字节的元数据?本文介绍了一种支持这种细粒度数据沿袭的方法。我们的方法使用有关处理步骤的有限信息来懒惰地推断出必要的谱系信息。这样,我们避免了预先计算和存储此类信息。
因此,我们的细粒度数据沿袭技术是对粗粒度元数据技术的补充。在没有显式血统的情况下,最明显的识别相关输入的方式可以颠倒处理步骤。如果存在某个函数f1,则函数f被认为是可逆的,使得对于每个元素f的输入,f(-1)(f(a))= a。不幸的是,只有有限数量的功能是可逆的。我们介绍了弱求逆的概念,该概念适用于较大的函数类。每个弱可逆的函数都有一个对应的函数f(-w)。 f(-w)尝试从f的输出映射到f的输入,但不能保证它是完全准确的。取而代之的是,f (-w)的准确性由许多较弱的保证来描述。我们还介绍了验证的概念。验证功能完善了由f(-w)标识的集合。我们建议实现弱反转和验证,作为对对象关系数据库的扩展.

旋风径迹提取

在这里插入图片描述
大气模拟的变化涉及将模型数据与观测数据进行比较。旋风轨迹是此类比较的一种参考类型。旋风径迹的提取过程从大气总循环模型(AGCM)生成的数据开始。有两个函数应用于该数据。第一个功能提取海平面压力(SLP)的局部最小值,每个局部最小值可能是气旋的中心。第二个功能将这些最小值分配给旋风轨道。在本小节的其余部分,我们将详细描述两个处理步骤(图1a)和数据模式(图1b)。 AGCM数据由一系列多维数组组成,每个多维数组都有一个时间戳。每个阵列都按位置索引,并包含有关大气状况的各种数据,例如SLP值,风速和风向(见图1c)。特征提取算法是
在这里插入图片描述

DAG

DAG。我们通过将数据流图重组为具有一个输入和一个输出的功能组来解决此问题。我们分别反转这些组。然后**,我们合并反演的结果**。更具体地说,我们将数据流图中的链定义为从输入到输出的线性函数序列。**链中的每个功能都称为一个步骤。初级数据流图可以分解成许多这样的链。每个链都单独反转(**第4节中讨论了反转链的具体过程)。将每个链的反转结果合并在一起,以找到整个数据流图的反转。

登记程序

专业用户必须注册有关弱反转和验证功能的几条信息。第四节中描述的反演计划者将使用此信息来推断哪些功能应用于弱反演和验证。用户首先确定将执行弱转换或验证的函数的名称。接下来,用户识别正在被微弱地反转和验证的函数f。用户还指定被反转的属性是来自集合函数还是标量函数,即被描述为集合函数或标量(只有大小没有方向)的函数。用户还必须注册信息,以使反演计划者可以推断哪些弱反演和验证功能适用于给定的属性。因此,对于每个反转功能,用户都可以指定图像和反图像中相关属性(或尺寸)的类型。反转计划器在T in和T out中搜索与这些指定类型匹配的属性(方向)。最后,用户输入有关通过弱反转和验证功能输出的集合的属性的信息。请注意,如果为输出集指定了属性,则必须保证为true。但是,如果未指定,则可能或可能不正确。图6和图6总结了专家用户输入的信息来注册f wk或f vk。如3.1.1节所述,除了用户注册的f wk或f vk之外,每个属性或元素都是由用户注册的。每个函数都有一个默认的f wk和一个默认的f vk。默认值f㼿w k输出一个由no组成的过滤器

遇到问题

这种类型的系统可能会导致模棱两可,例如,如果T in中出现两个相同类型的属性,并且f的注册信息不允许我们推断哪个函数会产生哪个属性。在替代设计中,用户可以在图像和反图像中指定属性的精确名称。但是,这样的设计限制了弱反转和验证功能可以容易地重用的程度,从而迫使用户为要反转的每个属性明确注册弱反转和验证功能。

反演计划者

反转计划者负责设计一个计划,以弱化并验证用户选择的图像。该计划的执行结果必须与用户的属性说明尽可能匹配(例如,用户可以指定他们希望验证后的逆向图像是完整的或纯净的)。该计划指定将哪些弱转换和验证功能以什么顺序应用于哪些表。
在本节中,我们讨论在弱反转和验证函数结合的过程中如何保留弱逆和已验证逆的性质。然后,我们提出了转化计划器下面的算法来转化一条链。
我们做出几个简化的假设。在第二部分:实现中,我们考虑了放宽这些假设后可以进行的进一步优化。
我们假设所有表(包括中间结果)都已实现。
我们假设应用fk(-w)或fk(-v) 会产生每元组的成本(而不是固定成本或每字节成本)。
我们假设计划者正在尝试找到最接近的经过验证的逆。
我们假设用户指定的期望属性对于链中所有经过验证的逆都是相同的。

保存属性

我们已经讨论了集合的几种属性(完整的,纯的,用户定义的)。集的某些组合保留了此类属性,而某些则没有。我们将通过详细介绍单个函数(简单属性和复杂属性)的反转来开始讨论属性的保留。接下来,我们讨论多功能的反转

简单属性反转期间的属性保留

本小节涵盖两种主要的组合类型。首先,对于给定的尺寸k,可以结合使用I k(-w)s或者Ik(-v)来提高k反转的接近度。第二,至此,我们仅考虑了弱反转和图像属性验证。但是,在所有单个属性都完全反转之后,也可以执行更高级别的组合。具体来说,可以将多个属性的求逆结果进行组合,以组合整个元组的求逆。 (类似地,可以将复杂属性内多个维度的求和结果进行组合,以构成复杂属性的求逆。)在本小节的其他部分,我们将描述这种组合的优势。
我们首先考虑T out完全包含一个属性y的情况。回想一下,可以为单个属性注册多个弱反转函数fy(-w)(即,反转计划器可以选择多个弱反转函数)。我们已经观察到,希望具有不同性质的不同弱逆函数。但是,还希望具有多个具有相同特性的弱反转函数,以增加弱反转的接近度。有两种有趣的情况。首先,假设我们有两个弱的求逆函数每个函数都返回一个纯集(分别称为A和B)。如果A ≠ B,则A和B的并集产生严格更大的纯集(纯集越大,越准确)。其次,如果弱反函数产生完整的集合,则A和B的交集会产生严格更小的完整集合(完整的集合越小,则越精确)。请注意,无论是标量还是集合,这些组合规则都适用。图4.1.1a和4.1.1b说明了这种情况下A和B的组合。
现在我们考虑多维的弱逆的组合。首先,我们讨论f ks是标量的情况。如果I(-1)中的元组与I中的元组相关,则它必须与I的每个属性相关,即对于全部的k,i t必须是I(-1) k的成员。因此,通常,如果多个属性是标量,则应将它们的弱逆相交以找到整个元组的弱逆(或如果复杂属性中包含多个维,则每个维的弱逆的交集会找到该复杂属性的弱逆) 。
作为一个具体的例子,考虑一下T out恰好包含两个属性x和y的情况。假设我的图像恰好由我们希望反转的一个元组组成。
在某些情况下,我们可能会反转图像中属性的子集(因为用户已经指定只有那些属性是感兴趣的,或者因为感兴趣的弱反转和验证功能不适用于所有属性)。值得注意的是,如果一个集合对于多个属性1具有某些属性.1…k在图像中,我们说它具有与I1…k相关的属性

多个标量属性的弱反演和验证示例

回到我们的气旋轨迹提取示例,考虑对轨迹表中的图像进行弱反转和验证。我们假设时间和位置属性的弱反演和验证函数已经注册。请注意,f时间和f位置是标量。还要注意的是,这些属性中的每一个都有微不足道的弱反转和验证功能,这些功能产生了相对于单个属性而言完整和纯粹的集合
在这里插入图片描述

复杂属性反演过程中的属性保持

例如,一个函数可以将图像中的属性弱反转为弱反转中的元组;另一个函数也可以将图像中的元素弱反转为弱反转中的元组。一般来说,根据上述第4.1.1节中描述的组合规则,将得到的弱逆或已验证逆进行组合

由于逆运算中的每个级别都是单独计算的,所以逆运算中的每个级别相对于图像中的各个级别可以具有不同的属性。然而,一个级别的属性反过来会影响其下所有级别的属性。具体而言,如果逆图像中的所有较高级别具有相同的属性,则较低级别的弱逆图像或已验证逆图像相对于图像中的级别只能具有给定的属性。这意味着逆向中的级别是以自上而下的方式计算的,这又意味着逆向中的每个级别都是更高级别的子集。
在这里插入图片描述

多元函数求逆过程中的性质保持

在本节中,我们将展示我们的抽象模型如何推广到链。我们观察到弱逆和验证逆的性质是可传递的。例如,考虑具有两个函数ˆf和f的链,其中ˆf的输出被输入到f。假设专家用户具有提供这些函数中的每一个的弱求逆和验证的注册函数。现在假设终端用户希望找到图像In T Out的逆像(参见图9a)。用户想要识别T in和ˆT in中的相关输入。理想情况下,系统将使用f(-1)来反转图像,并在中识别T中的i(-1)。然后,它会将i(-1)在T in视为ˆT out中的一个图像,并找到它的反ˆI(-1)1inˆT in。我们在这种情况下应用我们的弱逆函数如下(我们假设这些弱逆函数是完备的)。我们首先在T中找到一个弱逆。然而,用户也希望在中看到来自ˆT的相关输入。这是通过使用I(-w)作为一个图片ˆT Out实现的。回想一下,弱逆可能与实际的逆映像不同。将弱逆函数链接在一起会放大这种不准确性。在图9b中,我们看到ˆf(-w)(i(-w))产生的集合比ˆf(-w)(i(-1))更大(也更不准确)。尽管精确度有所下降,但在这些情况下,我们仍然可以对弱逆与逆像的关系做出一定的保证。关键的观察是,完全和纯都是传递性属性。具体地说,如果f(-w)和ˆf(-w)都是完整的,那么它们的输出也是完整的。因此,在图9b中,ˆf(-w)(i(-1))和ˆf(-w)(i(-w))都是完全的,尽管两者都不是纯的。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Nefelibat

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值