第一篇论文小结,估计只能以翻译为主了。
作者:Bei Yu、Guoliang Li、Karen Sollins、Anthony K.H. Tung
发表会议:sigmod 08
一、简介
基于关键词的关系数据库信息检索成为一个热点技术,结合了数据库技术和信息检索(IR)。用户不需了解数据库的结构和SQL等数据库操纵语言,像使用搜索引擎一样,只需要输入关键字的信息,就能查询到数据库里的信息。已有的基于关键词的数据库检索系统有:DBXplorer、Discover、Banks等。
随着p2p网络和面向服务的体系结构的发展,将这一技术推广到分布式数据库成为一个新的研究热点。最简单的方法:将请求发到每个数据节点,然后各个节点上使用已有的基于关键词的数据库检索技术进行查询,再将查询结果返回到某中央处理节点上,然后把结果返回给用户。这种方法对于网络传输压力大,而且浪费了数据节点的资源。因为并不是每个数据库里,都能查到有效的信息。
本论文的贡献:
1、每个数据库生成summary,存储一些关键信息。
2、根据summary,提出了一种目标数据库选择算法。
3、关键词技术在分布式数据库的第一次研究。
二、核心算法
1、关键词关系矩阵(KRM:keyword relationship matrix)
m是关键词的个数(元组包含有的), n是元组的总个数
a、矩阵D(m*n):
D = (dij)m*n ,表示keyword是否在tuple中出现,1:出现,0:不出现。
b、矩阵T(n*n)
T = (tij)n*n ,表示tuple间是否有关系,也就是外键连接关系,1:有,0:无。
c、矩阵R(m*m)
(公式无法编辑,图也不能上传。哎,等今后再贴图。)
表示的是关键词ki和kj的一些关系:比如在各种distance下,ki和kj能够join起来的个数。等等。
2、KRM的计算
3、用SQL实现上述算法
还没完全看懂,暂且留空。
4、数据库选择
score(DB,Q)=sigma score(Ti, Q)。
一个DB里,会返回多个结果,计算其分值和作为这个DB的得分。