- 博客(5)
- 资源 (6)
- 收藏
- 关注
转载 lucene 集中analyser的比较
中文分词可以查看:http://www.open-open.com/74.htm1、StopAnalyzerStopAnalyzer能过滤词汇中的特定字符串和词汇,并且完成大写转小写的功能。2、StandardAnalyzerStandardAnalyzer根据空格和符号来完成分词,还可以完成数字、字母、E-mail地址、IP地址以及中文字符的分析处理,还可以支持过滤词表,
2012-03-11 20:25:44 429
转载 lucene 原理
Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下: 0)设有两篇文章1和2 文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too. 文章2的内容为:He once lived in Shanghai. 1)由于lucene是基于关键词索引和查询的,首先我们要取得这
2012-01-25 16:42:09 192
转载 lucene 2.x 预处理、建立索引、查询 实例+源码
lucene3.0已于2009-11-25发布啦,但网上的入门实例都是针对lucene3.0以前的,相对于以前的版本,貌似改动不小。本人从头开始学习lucene,现在用的是《lucene in action中文版》,结合lucene3.0文档写了个入门实例,可供像我一样直接从lucene3.0开始学习的新手参考!入门实例: 1.预处理:先把网上下载的一个《三国演义》电子书“三国
2012-01-25 15:58:17 282
转载 sed命令详解
上个星期老师讲了sed的用法,但是这个星期很快就把指令忘得七七八八了,还是上网找一篇详细的sed命令详解收藏一下,方便以后学习查阅。1.简介sed是源于行编辑器ed的非交互式的流(stream-oriented)编辑器。sed之所以称为“流”编辑器,是因为象大多数UNIX程序一样,输入流过它,然后被导向标准输出。sed编辑器逐行处理文件(或输入),把当前处理的行存储在称为“模式
2011-10-20 09:04:18 203
转载 Log4j的日志级别
公司使用Apache作为Web应用服务器,日志采用log4j组件来做。日志是应用软件中不可缺少的部分,Apache的开源项目Log4j是一个功能强大的日志组件,提供方便的日志记录。Log4j是Apache基金会的一个项 目,Log4j是一个基于Java的日志组件,Log4j是Ja
2011-10-16 15:27:18 306
某超市八月份的购物篮数据集
2011-12-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人