关于Lemur(1)

这个话题还得追述到去年的毕业设计,我基于lemur开发了一个检索实验工具。现在看来,当时的程序不过是个简陋的玩具而已(Lemur本身更像是一个来自学院的玩具),不过我还是希望这个工具真的能够帮助更多的人了解搜索,帮助更多的学生更快的搞定论文,帮助更多的……不管怎么样,我就是希望自己的毕业设计论文以及程序不会变成回收站里的垃圾。

曾经贴出过一些当时写的一些关于lemur的小文章,不过后来觉得排版缺乏美感而且图片无法正常显示,就删了,想整理一下一起贴出来。但是后来急匆匆的就毕业了,后来急匆匆的就上班了,后来……后来,这个事情就一直淡忘了。在此之间,有些童鞋留言或发邮件向我要有关资料,恩,这个事情符合我努力不将论文变成垃圾的奋斗目标,于是,我非常自然的想到了在博客中贴出来。不过,最最大杯具的是,在我来上海的路上,那块承载着我无数心血与学校网络部分流量以及电驴日月辛勤的硬盘竟然坏了!无奈,只能通过我邮箱中仅存的毕业论文以及另一块硬盘上的备份工程来恢复我当年的创作喽。

从今天起,我会陆续在博客贴出一些关于lemur的文章,顺便回顾一下相关知识并对一些原有的不成熟的看法加以改进,毕业论文以及源代码我会发到csdn的下载专区当中,有需要的童鞋可以去看看。

今天先说说第一回,关于各种检索工具的介绍。

在工业界,比较著名有Apache 的Lucene,支持P2P架构的Hyper Estraier,基于SQL的全文检索引擎 Sphinx,结构化文本索引和检索Zebra等。其中Lucene被广泛使用,它基于Java开发,接口简洁,具有良好的系统构建与可扩展性。然而,它有性能较差,提供的检索算法较少,无法支持大规模的数据处理等不足,这样导致以Lucene为代表的商用检索工具并不适用于科学研究。

研究人员往往需要一个支持大规模数据的、灵活的、健壮的、易扩展的实验平台,用来测试和验证各种新的优化技术以及算法。在这种情况下,很多国外的科研机构都开发了自己的检索工具平台。具有代表性的有卡内基梅隆大学(CMU)与马萨诸塞州立大学(UMass)联合开发的语言模型和信息检索工具包Lemur,皇家墨尔本理工大学(RMIT)的Zettair,加拿大滑铁卢大学的Wumpus等。其中Lemur是最有具代表性的,它对于检索效果试验有良好的支持,目前也被很多科研机构所采用。但在检索效率、索引实验等方面,Lemur并不能提供良好的扩展支持。国内目前同类的检索工具仅有中国科学院计算所开发的FirteX,虽然系统的构架与思路不错,但是在核心检索模型的支持上与国外的工具还有一定的差距。

Lemur本身并不是一个完整的检索系统,而是一个检索系统的工具集合。它仅提供了构建检索系统所必要的组件和API。Lemur后续推出了开源子项目indri,将Lemur中的API进行封装,构成了一个完整的检索系统程序。lucene也有自己的一套完整的检索系统Nutch,其在工业界大名鼎鼎,Nutch主要设计者甚至为该检索系统开发了一套独立的分布式系统Hadoop。包括Yahoo在内的很多大公司都采用了这套开源框架,其在工业界的影响可以说是非常巨大。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
资源包主要包含以下内容: ASP项目源码:每个资源包中都包含完整的ASP项目源码,这些源码采用了经典的ASP技术开发,结构清晰、注释详细,帮助用户轻松理解整个项目的逻辑和实现方式。通过这些源码,用户可以学习到ASP的基本语法、服务器端脚本编写方法、数据库操作、用户权限管理等关键技术。 数据库设计文件:为了方便用户更好地理解系统的后台逻辑,每个项目中都附带了完整的数据库设计文件。这些文件通常包括数据库结构图、数据表设计文档,以及示例数据SQL脚本。用户可以通过这些文件快速搭建项目所需的数据库环境,并了解各个数据表之间的关系和作用。 详细的开发文档:每个资源包都附有详细的开发文档文档内容包括项目背景介绍、功能模块说明、系统流程图、用户界面设计以及关键代码解析等。这些文档为用户提供了深入的学习材料,使得即便是从零开始的开发者也能逐步掌握项目开发的全过程。 项目演示与使用指南:为帮助用户更好地理解和使用这些ASP项目,每个资源包中都包含项目的演示文件和使用指南。演示文件通常以视频或图文形式展示项目的主要功能和操作流程,使用指南则详细说明了如何配置开发环境、部署项目以及常见问题的解决方法。 毕业设计参考:对于正在准备毕业设计的学生来说,这些资源包是绝佳的参考材料。每个项目不仅功能完善、结构清晰,还符合常见的毕业设计要求和标准。通过这些项目,学生可以学习到如何从零开始构建一个完整的Web系统,并积累丰富的项目经验。
资源包主要包含以下内容: ASP项目源码:每个资源包中都包含完整的ASP项目源码,这些源码采用了经典的ASP技术开发,结构清晰、注释详细,帮助用户轻松理解整个项目的逻辑和实现方式。通过这些源码,用户可以学习到ASP的基本语法、服务器端脚本编写方法、数据库操作、用户权限管理等关键技术。 数据库设计文件:为了方便用户更好地理解系统的后台逻辑,每个项目中都附带了完整的数据库设计文件。这些文件通常包括数据库结构图、数据表设计文档,以及示例数据SQL脚本。用户可以通过这些文件快速搭建项目所需的数据库环境,并了解各个数据表之间的关系和作用。 详细的开发文档:每个资源包都附有详细的开发文档文档内容包括项目背景介绍、功能模块说明、系统流程图、用户界面设计以及关键代码解析等。这些文档为用户提供了深入的学习材料,使得即便是从零开始的开发者也能逐步掌握项目开发的全过程。 项目演示与使用指南:为帮助用户更好地理解和使用这些ASP项目,每个资源包中都包含项目的演示文件和使用指南。演示文件通常以视频或图文形式展示项目的主要功能和操作流程,使用指南则详细说明了如何配置开发环境、部署项目以及常见问题的解决方法。 毕业设计参考:对于正在准备毕业设计的学生来说,这些资源包是绝佳的参考材料。每个项目不仅功能完善、结构清晰,还符合常见的毕业设计要求和标准。通过这些项目,学生可以学习到如何从零开始构建一个完整的Web系统,并积累丰富的项目经验。
08-10
资源包主要包含以下内容: ASP项目源码:每个资源包中都包含完整的ASP项目源码,这些源码采用了经典的ASP技术开发,结构清晰、注释详细,帮助用户轻松理解整个项目的逻辑和实现方式。通过这些源码,用户可以学习到ASP的基本语法、服务器端脚本编写方法、数据库操作、用户权限管理等关键技术。 数据库设计文件:为了方便用户更好地理解系统的后台逻辑,每个项目中都附带了完整的数据库设计文件。这些文件通常包括数据库结构图、数据表设计文档,以及示例数据SQL脚本。用户可以通过这些文件快速搭建项目所需的数据库环境,并了解各个数据表之间的关系和作用。 详细的开发文档:每个资源包都附有详细的开发文档文档内容包括项目背景介绍、功能模块说明、系统流程图、用户界面设计以及关键代码解析等。这些文档为用户提供了深入的学习材料,使得即便是从零开始的开发者也能逐步掌握项目开发的全过程。 项目演示与使用指南:为帮助用户更好地理解和使用这些ASP项目,每个资源包中都包含项目的演示文件和使用指南。演示文件通常以视频或图文形式展示项目的主要功能和操作流程,使用指南则详细说明了如何配置开发环境、部署项目以及常见问题的解决方法。 毕业设计参考:对于正在准备毕业设计的学生来说,这些资源包是绝佳的参考材料。每个项目不仅功能完善、结构清晰,还符合常见的毕业设计要求和标准。通过这些项目,学生可以学习到如何从零开始构建一个完整的Web系统,并积累丰富的项目经验。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值