DIPRE论文阅读记录(1)

        论文原文参见:https://github.com/Peiklong/DIPRE.git 中论文文献文件夹下的1999-65.pdf,论文名为:

Extracting Patterns and Relations from the World Wide Web

        论文中所提及的算法称作DIPRE-二次迭代模式扩展

        此前先记录查全率RR、查准率PR、错误率ER:

        将网络上所有信息定义成一个数据库D,将要抽取的数据定义成一个关系R,R是D中的一个表,包含特定目标字段f1,f2...,fn,则可以定义关系R = (f1,f2...,fn),垂直搜索引擎的任务就是根据关系检索D中的数据,合并成一个元组(Tuple),设实际检索的关系为R`,则

RR = |R` ∩ R| / |R|

PR = |R` ∩ R| / |R`|

ER = |R` - R| / |R`|

        根据论文中描述的算法进行了简单的理解,例如现有种子(春,朱自清),在某书城进行检索,得到搜索结果,查看源码中含有(春,朱自清)的可能为以下内容:

<a href=""><h3>春</h3></a>

<p class="author">作者:朱自清<var><strong></strong></var></p>

         检索出来的代码段应该包含足够长的前后缀信息,由此推测该网站的其他书籍信息可能包含相等或大致相似的前后缀标签代码,因此用通配符代替种子并进一步形成模式Pt,并通过该模式进行进一步的检索,但是如果检索出来的错误率即ER超过10%,则认为模式Pt生成失败,需要重新进行生成。

        然而根据原文描述,我们不能准确的计算出关系R,因此我们不能准确地知道查全率和错误率,所有我们只能随机检查利用模式Pt检索出来的结果R`。

        如果我们有个很好的检索模式(高查全率低错误率)用来检索,我们可以检索出和关系R非常接近的的内容,同样我们也希望通过很好的种子元组来构造一个很好的检索模式,我们可以用多个种子元组进行搜索,并比较它们的相似性,从而构建出一个好的检索模式。

原文中所描述的大致步骤:

     1、从一些用户提供的测试用例作为R`开始,例如五本书及其作者

     2、在数据库D中检索R`的所有匹配项,找到并保存种子元组(即书名和作者)附件的文本及url

     3、通过检索的内容形成匹配模式,集成所有检索的内容相似的部分,形成模式的查全率应该越高越好,但是低查全率可以通过更大的数据库弥补

     4、在D中检索所有符合已形成的模式的内容,并生成元组

     5、如果实际检索关系R`已经足够大了则结束,否则返回到第二步重新生成模式

        为了匹配的稳定性,做法有二,一是形成匹配模式时需要特别小心,减少假元组(不太明白什么叫假元组,种子元组不是自己给的么.......)带来的损害,二是更严格的控制匹配模式得到的结果元组,可以要求结果元组需要和我们的多种匹配模式相匹配才能被认为是可接受的元组。

        对于检索模式,原文定义为一个五元组(order , urlprefix , prefix , middle , suffix),其中order为布尔值,其他为字符串,如果order为真,则(作者,标题)元组对与检索模式相匹配,且检索结果所在的ur与url前缀相匹配,其他内容符合如下表达式:(不太搞得懂这段想表达什么,order到底啥用,能不能省略)(有些标题在前作者在后,需要根据检索网站的特性来安排标题和作者的前后关系)

                                                                                *prefix, author, middle, title, suffix*

作者的格式规范在如下的正则表达式中:(完全不使用于中文作者及标题......)

标题的格式:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值