技术:Java、JSP等
摘要:
为了适应网络信息的飞速增长,并且能够迅速、方便地从网络中获取有效信息, 搜索引擎逐渐走进了人们的生活,“飞梦”搜索引擎系统在这样的条件下,应运而生。本文首先系统的介绍了搜索引擎的概念、发展历史、和搜索引擎的分类。使读者能够初步了解搜索引擎技术。然后,详细介绍了“飞梦”搜索引擎系统。
“飞梦”搜索引擎是基于Web的搜索引擎。系统的前端以MVC模式来实现,Struts作为视图层,Spring做中间层,Hibernate作后端来开发实现的。本系统分为四个子模块,抓取模块实现的功能为:将web上的海量网页抓取到系统中,采用的实现方法是使用Heritrix来完成对网页的抓取。处理模块实现的功能为:解析网页,提取其中的有用内容,为网页建立词库,对解析网页生成的信息文件进行分词,并建立索引,将索引存入数据库中,采用的实现方法是:通过Lucene的API来实现对网页内容的建索,使用HTMLParser的API实现了对网页内容的解析。语义排序模块实现的主要功能是:对数据库中索引进行排序,通过核心排序算法实现语义排序,存于缓存中供用户查询。用户模块实现的主要功能是:用户模块是系统的用户接口,用户通过此模块完成与系统的交互,当用户在查询界面上输入要检索的信息后,系统将在可以接受的时间内,返回用户所需的结果集;采用DWR(Direct Web Remoting)封装了AJAX技术,处理用户请求;
关键词:搜索引擎,Lucene,Heritrix,语义排序
目录:
1 引言 1
2 课题背景 2
2.1搜索引擎的概念 2
Java、JSP搜索引擎语义排序的研究与实现
最新推荐文章于 2024-08-04 11:01:37 发布