文章目录
论文:Experimental results on change data capture methods implementation in different data structures to support real-time data warehouse(在不同数据结构中实现变更数据捕获方法以支持实时数据仓库的实验结果)
摘要
组织对快速决策的需求,导致开发实时数据仓库(RTDW)系统的重要性。此外,还需要考虑的是如何使提取、转换、加载(ETL)过程不会干扰正在使用的操作数据库的性能。可以使用的方法之一是更改数据捕获。到目前为止,已经有很多研究是利用基于日志的方法、触发器、复制等方法来完成的。然而,到目前为止进行的研究只在一种类型的数据源中测试了每种方法。这导致声称在测试的一种类型的数据源中质量最好的方法,不一定像其他类型的数据源那样很适合。
十问
Q1 论文试图解决什么问题?
确定对于支持 RTDW 系统的每个数据源中的每种类型的数据结构,哪种变化数据捕获方法是最好的。
Q2 这是否是一个新的问题?
是,现有的研究都是在一种类型的数据源中测试每种方法的性能,但没有针对数据源数据结构类型。
Q3 这篇文章要验证一个什么科学假设?
对于不同类型的数据结构,最佳的变更数据捕获方法是不同的。
Q4 有哪些相关研究?如何归类?
方法包括基于记录的方法、复制方法、触发器方法、数据库快照方法、基于日志的方法和刷新表方法。
Q5 论文中提到的解决方案之关键是什么?
不同的数据源存在不同的数据结构。
Q6 论文中的实验是如何设计的?
- 设计数据模型,构建用于测试的虚拟数据。
- 将变更数据捕获方法应用于每个数据源。
- 在一定数量和时间段内进行查询执行的模拟测试。
- 创建完整的设计方案来构建RTDW系统。
- 从数据结构层面对变更数据捕获方法的测试结果进行分析。
Q7 用于定量评估的数据集是什么?代码有没有开源?
用于测试的虚拟数据,未开源。
Q8 论文中的实验及结果有没有很好地支持需要验证的科学假设?
对于具有平面文件、层次结构和网络数据结构的数据库,捕获更改数据的最佳方法是文件上的时间戳。对于具有关系和二进制关系数据结构的数据库,捕获更改数据的最佳方法是触发器。
Q9 这篇论文到底有什么贡献?
提供了在不同数据结构数据库上的CDC技术的性能比较。
Q10 下一步呢?有什么工作可以继续深入?
在实验结果中,基于日志的方法性能不佳,而且随着更改数越大性能越差,实际上有很多方法选择的是基于日志的方法,而且论文也提到说是最佳应用,但是本文并未体现出来,应当考虑验证对数据库本身的性能影响情况,以及存储空间的占用情况等资源消耗情况。