技术:Java、JSP等
摘要:
随着信息技术不断发展、互联网信息不断丰富,搜索引擎的发展速度也越来越快,目前Google收录的网页数量是全世界搜索引擎中最多的。伴随着搜索引擎的飞速发展,相应的瓶颈问题也开始出现:索引数据库越来越大,需要的维护成本越来越高;索引数据源单一,通常只限于文本内容;索引缺乏通用性和灵活性等等。而Lucene具有开放性和易扩展性,对于解决搜索引擎目前的问题有很好的应用价值。本文用lucene和Heritrix构建了一个Web 搜索应用程序,来研究Lucene在搜索引擎领域的应用。主要工作包括:
(1)分析了Web搜索引擎的组成结构和工作原理,在此基础上进行了基于Lucene的Web搜索引擎的整体结构设计,并将系统分为用户接口、请求管理器、搜索子系统和索引子系统等模块。
(2)针对各个模块的功能进行了设计开发,设计了相关信息的存储机制,并根据搜索引擎的工作原理实现了各模块之间的交互。
(3)在理解了排序索引部分的原理之后,设计了实现索引排序部分结构,完成了详细流程图和编码实现,对完成的代码进行测试。
本论文旨在设计与实现一个轻量级的文本搜索引擎。在本论文中,我阐述了文本搜索引擎的原理、技术与系统,最后设计并实现了一个轻量级的文本搜索引擎。众所周知搜索引擎是一个庞大而复杂的系统,尽管我设计和实现的搜索只是一个轻量级的文本搜索引擎,但系统任有一定的规模。我针对各个子系统给出设计方案 ,最后根据各个子系统的设计方案实现并成功部署和运行了搜索引擎。