帕累托法则与频繁XML查询模式挖掘

最新推荐文章于 2024-08-15 09:46:02 发布

meteorlWJ

最新推荐文章于 2024-08-15 09:46:02 发布

阅读量1k

点赞数

分类专栏： XML 文章标签： xml 数据库扩展磁盘算法文档

XML 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

　据计算机科学技术学报报道：　在频繁XML查询模式的挖掘过程中，如果某个模式在一批XML查询中出现的次数超过某个预定的值，那么就认为这个模式是频繁的。根据频繁模式的Apriori性质，如果一个模式是频繁的，那么它的子模式肯定也是频繁的，这就导致了通常以频繁度为唯一指标的挖掘算法会产生大量的冗余模式。因此，闭合模式的概念就产生了。其目的主要是研究频繁XML查询模式的挖掘，即找到XML 数据库中被用户频繁查找的数据模式。所谓闭合模式就是指对某个模式P而言，不存在其他任何一个模式Q包含P，且Q和P的频繁度相同，所挖掘的结果就是最大的频繁模式，其所有子模式都不会出现在挖掘结果中。

　　此研究采用的是序列化的模式挖掘方法。其主要特点在于，首先将XML查询模式树序列化为UDFTS序列，UDFTS序列是一种以深度优先为基础的XML文档序列。这种序列能有效地保证XML结点之间的祖先-后裔关系、父子关系和兄弟结点的先后关系。同时，基于这种序列，可以高效地判断XML文档结点之间的父子关系约束。最后，采用双向扩展的闭合检查方法来判断频繁模式的闭合特征。与已有的研究成果相比，这种双向扩展的闭合检查方法不需要代价较高的树包含关系的判定，取而代之的是前向扩展与后向扩展事件规则的判定。这也是作者所提出的挖掘算法SOLARIA*的性能较好的原因之一。通过详细的实验研究，验证了算法SOLARIA*在性能和可扩展性上的优势。

　　频繁、闭合的XML查询模式对建立XML索引、缓存数据有着非常重要的应用价值，是实现纯XML数据库的语义缓存的关键。一方面，针对这些被用户频繁查找的“热”的XML数据建立索引，不仅可以节省XML索引空间，而且能提高XML索引的查找效率和命中率，因为在实际数据库中80%的查询往往只涉及到20%的数据，而这20%的数据往往就是被用户频繁查找的“热”数据，这一点恰恰验证了“帕累托法则”。“帕累托法则”也俗称80-20原则，是由意大利著名经济学家维尔弗雷德·帕累托发现的，1895年他首度发表了有关这一原则的论文。在现实生活中，几乎所有的经济活动都受“帕累托法则”的支配，例如，20%的努力产生80%的结果，20%的客户带来了80%的销售额，20%的产品或者服务创造了80%的利润，20%的工作能够体现80%的价值，等等。另一方面，传统数据库系统的查询求解主要考虑如何从磁盘上的数据库中找到用户需要的数据，而如何利用缓存数据对用户查询进行求解是最近关于查询求解研究的一个热点。如果缓存里的数据能够完全回答用户的查询，那么就省去了将数据从磁盘读到缓存的I/O开销。如果缓存里的数据能够部分回答用户的查询，那么可以将用户查询分为两部分，一部分完全用缓存里的数据来回答，而另一部分则用磁盘上的数据来回答，最后再把两部分的查询结果合并起来就是用户要查询的数据。总之，利用缓存可以减少查询求解过程中的磁盘I/O开销。因此，对纯XML数据库系统来说，将用户频繁查找的XML数据放在高速缓存里，并在缓存替换策略中充分考虑频繁数据的高可用性，可以有效地支持XML数据的查询求解，提高查询效率。

本文转自: http://scitech.people.com.cn/GB/6735365.html

meteorlWJ

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
帕累托法则与频繁XML查询模式挖掘

　据计算机科学技术学报报道：　在频繁XML查询模式的挖掘过程中，如果某个模式在一批XML查询中出现的次数超过某个预定的值，那么就认为这个模式是频繁的。根据频繁模式的Apriori性质，如果一个模式是频繁的，那么它的子模式肯定也是频繁的，这就导致了通常以频繁度为唯一指标的挖掘算法会产生大量的冗余模式。因此，闭合模式的概念就产生了。其目的主要是研究频繁XML查询模式的挖掘，即找到XML数据库中被用户频
复制链接

扫一扫

专栏目录