Lucene学习笔记(3)(竹笋炒肉)

原创 2004年12月30日 12:36:00

Lucene学习笔记(3)

lucene_green_100.gif  继续学习车东利用Lucene提供网站全文检索的开源项目。

  由于文档不全,这次看代码看得很苦,几乎是用log4j一个类一个方法的看过来的。令人高兴的是,期间请教车东时,他说到要重新整理一下整个项目的源代码和文档,估计后来者可以轻松矣。

  除了以前提到的汉化外,车东在这个项目中,加入了很多实用的东东,如反显、排序、摘要等,甚至网页过期时间、输出格式的限制都考虑到了。

  下面是我的测试页面,大家看看先。等明天我把源代码diff一下,把我做的修改文件也挂上来,供大家参考。

webluecenesform.gif

webluecenesres.gif

  在车东的简历上,有一个商业检索网址,估计是车东他们的成绩,可以去看看,也帮助理解这个项目的功能。
  下面是运行weblucene需要作得改动和说明。

weblucene/
|-- WEB-INF
|   |-- classes
|   |   `-- com
|   |       `-- chedong
|   |           |-- weblucene
|   |               |-- WebLuceneAdminServlet.java
|   |               |-- index
|   |               |   `-- SAXIndexer.java
|   |               `-- search
|   |                   `-- WebLuceneHighlighter.java
|   |-- logs <-----这是一个子目录,手工建立后程序运行时log文件在这个目录下。
|   `-- var
|       `-- app
|           |-- index <-----这是一个子目录,手工建立后索引时将索引文件放在这儿
|           |-- weblucene.xsl
|           `-- wl.conf
|-- index.html
|-- style.css
`-- test.xml

对SAXIndexer.java的修改
将两行
sb.append(luceneDoc.getField((String) it.next()));
改为两行
sb.append(luceneDoc.get((String) it.next()));

对WebLuceneHighlighter.java的修改
将两处<u>改为<ins>
将两处</u>改为</ins>

对WebLuceneAdminServlet.java可改可不改
建议将
logFileName = servletConfig.getServletContext().getRealPath("WEB-INF/logs/")
                          + logFileName;
改为
logFileName = servletConfig.getServletContext().getRealPath("WEB-INF/logs/")
                          + "/" + logFileName;
                          


除了三个java程序外,其它文件都可以从这儿下载.

  通过web进行检索前,需要先建立索引,命令如下:

$ java IndexRunner -i tt.xml -o WEB-INF/var/app/index/ -t Title,Content -n Author,Pubtime

  需要再说一句,就是估计车东会很快推出一个崭新的实用性更强的版本,到那时此处可供下载的内容估计都没有用了。:)

豆角炒肉---美食杰

食材: 豆角、猪肉 辅料:
  • yangshuodianzi
  • yangshuodianzi
  • 2014年10月05日 19:52
  • 989

彩椒炒肉---转载自美食天下

食材明细: 青,红,黄彩椒各一个
  • yangshuodianzi
  • yangshuodianzi
  • 2014年08月30日 13:01
  • 651

【区块链】目前炒币的平台有哪些,区块链怎么入场?

币圈、炒币平台推荐
  • cChenLiang
  • cChenLiang
  • 2017年12月22日 13:41
  • 758

肉刷——App推广作弊内幕系列

肉刷——App推广作弊内幕系列 以史为贱 · 6 个月前 肉刷是APP推广流量作假常用手段之一,与机刷共同构成了机器刷量的最主要的两种手段。从场景上看,骇人听闻,但作弊技术水平不高,制造假...
  • qiezikuaichuan
  • qiezikuaichuan
  • 2016年11月09日 17:53
  • 1211

”海参炒面“引起的程序员思考

想起宋小宝的小品就想笑,他不愧是喜剧之王。  “海参炒面, 只看见面了,  海参呢? 让你给造了 ?! 扒拉出锅了?!必须给我一个完美的解释 !”  “我叫海参,面是我抄的” 旁边的厨师干脆利索的给出...
  • gridlayout
  • gridlayout
  • 2016年12月08日 16:25
  • 527

Lucene 6.0 索引结构

1.复合文件索引 该模式是默认的。 1.1 目录结构 1.2 _x.cfe 1.3 _x.cfs 1.4 _x.si 2.多文件索引 IndexWriterConfig org.apache.l...
  • chuchus
  • chuchus
  • 2016年05月16日 20:03
  • 1728

Lucene 实例教程(三)之操作索引

转自作者:永恒の_☆ 地址:http://blog.csdn.net/chenghui0317/article/details/10281311 最近研究数据库模糊查询,发现oracle...
  • tanqian351
  • tanqian351
  • 2016年12月19日 16:46
  • 511

lucene系列-近实时搜索

Index索引刷新过程:只有Index Writer上的commit操作才会导致ram directory上的数据完全同步到文件。 Index Writer提供了实时获得reader的API,这个调...
  • madman188
  • madman188
  • 2016年04月25日 14:08
  • 1759

一步一步跟我学习lucene(7)---lucene搜索之IndexSearcher构建过程

最近一直在写一步一步跟我学习lucene系列(http://blog.csdn.net/wuyinggui10000/article/category/3173543),个人的博客也收到了很多的访问量...
  • wuyinggui10000
  • wuyinggui10000
  • 2015年05月13日 23:34
  • 3958

警惕区块链概念炒作

区块链起点高,不管是政府、专家、企业还是来自媒体,我们对于区块链的描述都是用了最绝对的词,“区块链揭竿而起”,“区块链终将颠覆我们的生活”,“区块链引发征信系统革命”。在这瞬息万变的市场,区块链是概念...
  • qq53016353
  • qq53016353
  • 2016年05月21日 09:54
  • 224
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Lucene学习笔记(3)(竹笋炒肉)
举报原因:
原因补充:

(最多只允许输入30个字)