技术:Java、JSP等
摘要:
信息的飞速增长,使搜索引擎成为人们查找信息的首选工具。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词技术。
本设计主要是实现一个中文分词器。通过中文分词,实现对中文句子的分析,将其拆分成词语。再将其应用在搜索引擎中,使该搜索引擎实现对中文的搜索。系统中的分词算法采用基于分词词典的机械分词方法,这种方法是按照正向最大匹配的策略将要分析的中文句子与字典中的词条进行匹配,进而把中文句子拆分成词。
通过使用该分词器可以自动把中文句子准确的拆分成词,拆分速度快。运用在搜索引擎的分析器中可以对中文信息进行分析,实现了对中文句子的搜索,提高了搜索引擎对中文搜索的功能和效率。并且本系统具有良好的可扩展性和可移植性,可以移植到大部分使用Lucene分析器的搜索引擎中。