
全文搜索引擎
文章平均质量分 63
wauwa
这个作者很懒,什么都没留下…
展开
-
几种开源分词工具的比较
搜集了一些资料,与同学一起进行了简单的测试,总结如下。分词工 具 特点 支持语言 原理词典及扩展性StandardAnalyzer中文、英文(unicode)中文:单字符切分英文:根据空格切分ChineseAnalyzer中文,不支持中原创 2012-08-14 16:18:18 · 59775 阅读 · 4 评论 -
RegainManual--索引及属性
In the Search index the data about a document is stored in separate fields. This way you can decide which fields you want to be regarded when searching. 在搜索索引中,关于文件(document)的数据存放在不同的属性(field)中。通过这种翻译 2012-08-17 10:14:28 · 1288 阅读 · 0 评论 -
好记性不如烂博客--使用xpdf操作pdf文件
上次写了使用pdfbox解析pdf的时候遇到一些无法解决的问题,于是改用xpdf。使用xpdf之后腰不酸了,背不痛了,走路有劲儿了。。。但是!!!当我把代码放到服务器上时,解析后,控制台出现一堆乱码啊乱码。然后我各种查资料,设置代码的properties啊,设置run configuration啊,焦头烂额忙了好几天完全没结果,乱码还是乱码,只是一会儿是“***@@@@”这样的,一会儿是“铌吥原创 2012-08-29 15:48:09 · 3474 阅读 · 0 评论 -
dom4j 遍历xml文件
主要代码参考http://jaczhao.iteye.com/blog/1498220一文中所粘贴的代码,但是原作者不详 使用这一代码时,有可能遇到两个问题,一是编码有问题报错,二是提示有未知的protocol。 对于编码问题,在建立SAXReader之后,添加一句: reader.setEncoding("GBK");其中GBK为编码集,可以换成原创 2012-08-21 14:57:30 · 685 阅读 · 0 评论 -
在项目中使用paoding分词
本文中使用paoding2.0.41.准备工作 需要的文件: paoding-analysis.jar dic paoding-analysis.properties2.安装导入 将paoding-analysis.jar放到classpath 目录下并且导入工程 修改paoding-analysis.properties ,将pao原创 2012-09-04 09:02:33 · 9235 阅读 · 1 评论 -
Regain 各package简介
packagenet.sf.regain整个lucene搜索的基础包net.sf.regain.crawler“爬虫”部分,创建搜索索引net.sf.regain.crawler.access“爬虫”部分的权限控制接口net.sf.regain.crawler.config原创 2012-09-06 16:15:03 · 843 阅读 · 0 评论 -
Lucene的组合查询
在Lucene中实现组合查询的方法很多,我目前用过的方法有三种,使用MultiFieldQueryParser,使用filter,使用boolean query。1.使用MultiFieldQueryParser 构建parser的时候使用MultiFieldQueryParser,查询时便可以同时在索引的多个域中搜索关键字。适用情况举例:将文章的标题和内容分别存在索引原创 2012-09-28 10:53:19 · 10720 阅读 · 3 评论