基于中文分词的搜索引擎的设计与实现

技术:Java、JSP
摘要:
网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、索引引擎、Web服务器三个方面进行详细的说明。为了更加深刻的理解这种技术,我使用Java编程技术实现了一个自己的搜索引擎——基于中文分词的搜索引擎。
基于中文分词的搜索引擎是从指定的Web页面中按照超连接进行解析、搜索,并把搜索到的每条新闻进行索引后加入数据库。然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的新闻。
本人在介绍搜索引擎的章节中除了详细的阐述技术核心外还结合了基于中文分词的搜索引擎的实现代码来说明,图文并茂、易于理解。
关键词  搜索引擎;网络机器人;Web服务器;中文分词

目录:
摘  要    I
Abstract    II
第一章  绪论    1
一、  论文的研究背景    1
二、  国内外研究现状    1
三、  本文工作    2
四、  本文结构    3
第二章  搜索引擎概述    4
一、  搜索引擎的定义    4
二、  搜索引擎的分类    4
(一)  按检索工具发展过程分类    4
(二)  按检索范围分类    4
(三)  按工作方式分类    4
三、  搜索引擎的原理    5
(一)  搜索引擎的结构    5
(二)  搜索引擎的工作流程    6
第三章  搜索引擎的原理    7
一、  网络机器人    7
(一)  什么是网络机器人    7
(二)  网络机器人的结构分析    7
二、  索引的建立与搜索    9
(一)  索引的建立与搜索过程    9
(二)  基于lucene的索引与搜索    9
三、  Web服务器    11
四、  搜索引擎的工作流程    12
(一)  全文搜索引擎工作流程    12
(二)  目录搜索引擎    13
五、  搜索引擎的主要指标及分析    13
第四章  中文分词    14
一、  中文分词和搜索引擎    14
二、  中文分词技术    14
三、  中文分词算法    14
(一)  基于字符串匹配的分词方法    14
(二)  基于理解的分词方法    15
(三)  基于统计的分词方法    15
(四)  歧义识别与新词识别    15
(五)  正向迭代最细粒度切分算法    16
第五章  搜索引擎的设计与实现    17
一、  网络机器人的设计与实现    17
(一)  如何构造Spider程序    17
(二)  如何提高程序性能    19

(三)  网络机器人的代码分析    19
二、  基于Lucene的索引与搜索的设计与实现    21
(一)  中文分词器的选择    21
(二)  Lucene与Spider结合的代码实现    21
三、  基于Tomcat的Web服务器程序的设计与实现    25
(一)  用户接口设计    25
(二)  在Tomcat上部署项目    30
四、  中文分词模块的设计与实现    31
(一)  中文分词器的比较与选择    31
(二)  IK-Analyzer的分词处理过程    32
第六章  搜索引擎的测试    34
一、  测试目的与意义    34
二、  测试过程    34
(一)中文分词测试    34
(二)搜索结果测试    35
三、  测试结论    36
结论    37
一、  论文总结    37
(一)  网络机器人    37
(二)  网页分析    37
(三)  中文分词    37
(四)  建立索引文件    37
(五)  Web服务器    37
(六)  动态的扩展词库    37
二、  进—步的工作    37
(一)  改善网络机器人使之行业化    37
(二)  改善中文分词器    38
参考文献    39
致  谢    40
外文原文    41
中文翻译    48

包含资料:
 

 

截图:
 

 
 

 
 

 

  • 18
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值