全文检索
goingchan
这个作者很懒,什么都没留下…
展开
-
常见中文分词开源项目
由于项目技术需要, 需要使用中文分词技术, 那么就去简单调研了一下, 简单搜集了一些资料 常见中文分词开源项目 SCWS Hightman开发的一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。采用的是采集的词频 词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一...原创 2010-07-07 22:43:28 · 99 阅读 · 0 评论 -
分词算法分类
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。 1、基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词 条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹 配的情况,可以...原创 2010-07-07 22:52:11 · 281 阅读 · 0 评论 -
全文检索引擎-Lucene简介
Lucene是apache软件基金会[4] jakarta项目组的一个子项目,是一个开放源代码[5]的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了 完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标 系统中实现全文检索的功能,或者是以此为基础建立起完整的全...原创 2010-07-07 23:02:27 · 102 阅读 · 0 评论 -
什么是全文检索与全文检索系统
全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。 全文检索的方法主要分为按字检索和按词检索两种。按字检索是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。对于各种不同的语...原创 2010-07-07 23:15:23 · 161 阅读 · 0 评论 -
Solr 简介
英语原文(官方)翻译 Solr 简介 Solr 是一个带有web界面的企业级搜索服务器。它通过http协议将xml格式的文件进行索引,通过http协议进行查询,返回结果为xml格式。 * 先进的全文搜索能力 * 优化的web流量 * 基于开放接口(xml&http)的标准 * 集成的HTML管理界面 * 可扩展性-与其它Solr 服务器的高效结合 ...原创 2010-07-08 13:38:43 · 75 阅读 · 0 评论 -
Sphinx简介
Sphinx是一个基于SQL的全文检索引擎,可以结合 MySQL,PostgreSQL做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索。Sphinx特别为一 些脚本语言设计搜索API接口,如PHP,Python,Perl,Ruby等,同时为MySQL也设计了一个存储引擎插件。 Sphinx的特性 ...原创 2010-07-08 13:50:34 · 113 阅读 · 0 评论 -
Coreseek简介
3.2.13基于Sphinx 0.9.9 release开发,全面支持: Freebsd 6、7、8 Redhat、CentOS、Fedora、 Debian、Ubuntu、Gentoo、OpenSUSE、Slackware、ArchLinux WindowsXP、 Windows2003、Windows7等各类32位以及64位操作系统 支持多种数据来源 Mysql...原创 2010-07-08 13:54:58 · 110 阅读 · 0 评论