Provenance Research Issues and Challenges in the Big Data Era(论文阅读)

大数据时代的种源研究问题与挑战

论文背景

大数据的起源是数据库和数据挖掘研究界的热门话题。从根本上说,起源是检测数据和数据对象的谱系和派生的过程,它在数据库管理系统、工作流管理系统和分布式系统中发挥着重要作用。尽管如此,大数据研究的发源地仍处于萌芽阶段,在这方面仍需下大力气。受这些考虑的启发,在本文中,我们概述了大数据来源研究中的相关问题和挑战,并强调了这些研究方向未来可能的努力。

简介

现在,研究界和产业界都非常关注大数据管理(例如,[11]、[2])。大数据是指以所谓3V属性[19]为特征的大规模数据,即:大容量、高速度、高多样性。然而,在数据密集型系统研究的背景下,处理大数据时最相关的挑战是从这些储存库中提取有用的知识,以便支持对大数据的分析(例如,[12]、[7]、[13])。这对于广泛的应用场景非常有用,其中决策制定、洞察力发现和流程优化代表了一些众所周知的新兴环境。在大数据研究中,大数据(如[9]、[10]、[8])的隐私和安全起着重要作用。除了这些主题,大数据的来源(例如,[15]、[16]、[6]、[17]、[3])也是相关的。数据起源涉及检测数据密集型系统中数据的来源、创建和传播过程的问题。换句话说,数据起源在于数据和数据对象的谱系(例如,[25])和派生(例如,[21]),它的概念根源在于过去在艺术、文学作品、手稿、雕塑等上下文中进行的广泛研究。与“数据来源”概念相近的另一个概念是所谓的数据所有权(例如,[20]),它指的是定义和提供有关数据资产合法所有者的信息的问题,以及数据所有者实施的获取、使用和分发政策。通过这种方式,数据所有权主要将其自身塑造成一个数据治理流程,该流程详细说明了组织对企业范围内数据的合法所有权。数据来源与广泛的典型企业数据任务相关,例如:(I)数据验证(例如,[4])
(Ii)数据调试(例如,[18]);(Iii)数据审计(例如,[24]);(Iv)数据质量(例如,[22]);(V)数据可靠性(例如,[1])。在应用方面,出处问题通常在数据库管理系统(例如,[5])中得到解决,但在工作流管理系统(例如,[14])和分布式系统(例如,[23])的上下文中甚至出现了一些努力。
当应用到大数据时,来源问题变得令人望而却步(例如,[6]),这主要是由于大数据的巨大规模。例如,最成功的数据来源技术之一在于
所谓的基于注释的方法
(例如,[21]),其建议修改输入数据库查询以支持数据来源任务,同时能够访问所有目标数据集。显然,后一种要求在应用于大数据存储库时变得非常困难。在大数据来源研究中,还出现了许多其他研究挑战和悬而未决的问题。例如,数据来源过程的保密性、安全和隐私保护的大数据来源、灵活的大数据来源查询工具等先进理念仍需深入研究。
受这些考虑的启发,在本文中,我们概述了上述大数据来源问题的相关研究问题和挑战,并强调了这些研究方向未来可能的努力。

大数据起源:问题和挑战

在大数据来源研究中出现了一些相关的问题和挑战。
下面,我们将介绍和讨论一些值得注意的问题。
访问大数据大数据非常庞大,因此访问整个大数据集变得有问题。访问数据是对数据来源技术的严格要求,这使得应用经典方法不适合处理大数据来源的特定上下文。
分析大数据为了应用数据来源方法,最先进的技术需要分析目标(大数据)数据集。在这里,一个主要问题表现为大数据的可扩展性,这可能真的是爆炸性的。
可扩展性问题处理大数据时,最有问题的缺点之一就是可扩展性,正如前面强调的那样。这同样发生在大数据的出处,因为出处技术本质上是多步骤的,它们需要重复访问和处理目标数据。这提出了相关问题,因为大数据通常都在规模和规模上不断增长。
信息共享数据来源方法通常需要在执行相同数据来源任务的参与者之间共享信息。后者在处理大数据时并不容易,因为这些数据通常分布在大规模的网络环境中,因此信息共享带来了相关的研究挑战和技术缺陷。
最小计算开销要求数据起源技术可能是数据密集型和资源消耗的。这就要求设计和实现引入最小计算开销的技术,以避免影响目标系统(例如,工作流管理系统)的性能。查询优化问题数据来源技术需要访问和查询数据,以便确定其来源,即使是以交互方式。当这些技术运行在大数据上时,这种应用需求会带来严重的缺陷,
因为查询大数据目前是一个关键的开放问题。
转换问题在数据来源任务中,数据源需要在不同的数据格式之间转换。必须相应地引入溯源,以便跟踪发生的所有不同转换。本课题是大数据产地研究课题家族中的一流课题,与数据交换研究领域也有几点相通之处。什么时候计算出处?计算来源有两种选择。只有在需要相同的出处时,才可以断言计算出处(这称为懒惰出处模型)。
另一种观点认为,每次数据转换时都要计算出处(这被称为热切出处模型)。这两种模式各有利弊。它们还意味着不同的计算开销。这仍然是一个有待在今后努力中考虑的问题。对出处的数据建模支持在处理数据源以检测其出处时,必须应用几个转换,如上所述。这也意味着需要设计特别的数据模型来支持出处,因为数据来源可能有很大的不同。在这种情况下,语义技术似乎很有希望朝这个方向发展。数据源模型的异构性数据起源技术通常运行在异构数据源上,因此它们也需要处理异构数据模型。
数据源的异构性是这类技术的一大挑战,因为数据源公开不同的格式、(数据)类型和模式。对来源的用户注释支持数据来源过程通常通过用户注释来丰富,根据用户注释,领域专家专门对数据进行注释,以提高该过程的有效性。因此,数据来源工具需要引入能够支持大数据上的用户注释的特别软件模块。安全和隐私保护的来源来源可能代表目标数据源的安全和隐私遭到破坏。

因此,未来努力的一个相关问题是需要安全和隐私保护的大数据来源技术。可能的解决方案是基于接受来自一方的数据源的安全性和保密性以及来自另一方的数据源的来源之间的某种折衷。灵活的来源查询工具Provenance不仅需要用来检测数据和数据对象的谱系和派生,而且还需要用于支持灵活查询工具的方法论,这些工具侧重于支持下一代网络安全系统,在这种系统中,用户可能有兴趣跟踪特定研究实验室中特定人生成的记录,或者检测被跟踪记录的机密性,即了解谁可能在授权人员之外查看了这些被跟踪的记录。起源可视化工具可视化工具对于大数据起源技术极其重要,因为起源工具是一个交互过程,通常需要智能工具来可视化实际结果并支持下一步决策。这将是未来几年相关的研究挑战。

结论

本文概述了新兴大数据来源研究背景下的相关研究问题和挑战。已经解决了几个方面的问题,并进行了批判性的讨论,以及在不久的将来可能要考虑的研究工作。我们坚信,大数据的起源将在下一代数据库和数据挖掘研究中发挥先行先试的作用。我们希望这篇论文将是实现这一目标的一个有用的里程碑。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Nefelibat

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值