lucene
文章平均质量分 83
gundumw100
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
lucene学习笔记
Lucene 其实很简单的,它最主要就是做两件事:建立索引和进行搜索。利用Lucene搜索前先要建立词库,也是所说的“建立索引”。这样Lucene才会“认识”这些词。Lucene 建立索引需要用到如下几个类:IndexWriter:lucene中最重要的的类之一,它主要是用来将文档加入索引,同时控制索引过程中的一些参数使用。Analyzer:分析器,主要用于分析搜索引擎遇到的各种文本。常原创 2017-04-10 17:43:09 · 244 阅读 · 0 评论 -
lucene Analysis包分析
算法和数据结构分析:由于Analysis包比较简单,不详述了!算法:基于机械分词 1-gram,2-gram,HMM(如果使用ICTCLAS接口的话)数据结构:部分源码用到了Set ,HashTable,HashMap认真理解TokenLucene中的Analysis包专门用于完成对于索引文件的分词.Lucene中的Token是一个非常重要的概念.看一下其源码实现:pu原创 2017-04-10 17:43:19 · 628 阅读 · 0 评论 -
Lucene整合"庖丁解牛"中文分词包
版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明http://asfr.blogbus.com/logs/44208118.html我现在测试用的Lucene版本是lucene-2.4.0,它已经能够支持中文分词,但它是采用一元分词(逐字拆分)的方法,即把每一个汉字当作是一个词,这样会使建立的索引非常庞大,会影响查询效率.所以大多运用lucene的朋友,都会考虑使用其它的中文原创 2017-04-10 17:43:27 · 391 阅读 · 0 评论 -
使用dom4j的xPath解析XML
books.xml: Lucene Studing Dom4j Tutorials Spring in Action O'Reilly下面我们使用dom4j的xPath来解析:segment of ParseXML.java:原创 2017-04-10 18:01:06 · 418 阅读 · 0 评论
分享