搜索引擎
文章平均质量分 82
ayanayo
这个作者很懒,什么都没留下…
展开
-
MMSEG介绍及基于分类的中文分词算法遐想
http://www.cnblogs.com/heshizhu/archive/2011/05/10/2042369.html 最近一直在弄中文分词,学习了不少分词算法,当然其中少不了中科院的分词工具。但我测试后发现,基于多层HMM的ICTCLAS虽然准确率虽很好,但效率方面还是没什么优势。可是效率问题在大规模数据应用中确实是很重要的。这里要介绍的,也是如今被广泛应用的,也是教转载 2014-11-08 08:47:22 · 383 阅读 · 0 评论 -
利用Xapian构建自己的搜索引擎:Xapian简介
http://blog.csdn.net/visualcatsharp/article/details/4176083相关文章:http://www.cnblogs.com/twelfthing/articles/1905310.htmlXapian与开源Xapian的官方网站是http://www.xapian.org,这是一个非常优秀的开源搜索引擎项目,搜索引擎其实转载 2014-11-08 08:12:18 · 417 阅读 · 0 评论 -
MMSEG 中文分词算法
由于学习需要,我尝试翻译MMSEG算法,目前处于初稿状态,很许多地方的翻译仍不尽准确,在以下几天会加以修改。算法原文位于:http://technology.chtsai.org/mmseg/MMSEG :一个基于最大匹配算法的两种变体的中文单词识别系统发表日期: 1996-04-29更新日期: 1998-03-06文档更新: 2000-03-12许转载 2014-11-08 08:50:10 · 430 阅读 · 0 评论 -
用xapian跟mmseg实现中文搜索
http://outofmemory.cn/code-snippet/133/use-xapian-gen-mmseg-achieve-zhongwensousuoxapian是一个开源的信息检索项目,类似于lucence。安装:用apt-get可以在ubuntu里安装如下模块:apt -xapian-index - maintenance tools for a转载 2014-11-08 08:24:00 · 1081 阅读 · 0 评论