Lucene
aitcax
这个作者很懒,什么都没留下…
展开
-
Lucene对pdf、word、html等文件的处理
Lucene在创建索引的过程中,yuancPDFBox是一个在java环境中对pdf文件进行解析处理的开源软件,同时它也提供了一个丰富的类库支持对pdf文件的操作。PDFBox为使 用Lucene的开发者专门提供了LucenePDFDocument类,它的static方法getDocument(ps:该方法被重载三次)能够直 接返回一个Lucene的Document类型结果。所以在为一原创 2014-10-09 18:09:24 · 3466 阅读 · 0 评论 -
Lucene的Document
Lucene中的Document类,是在使用lucene过程中必须接触的类之一,另一个是Field原创 2014-10-09 17:54:07 · 799 阅读 · 0 评论 -
Elasticsearch使用jcseg分词插件遇到的高亮highlight问题
Elasticsearch使用jcseg分词插件遇到的高亮highlight问题问题描述解决办法问题描述在使用jcseg分词插件,并且需要高亮关键词的时候遇到es查询报错:invalid token offsets exception : Token 11月 15日 exceeds length of provided text sized 14问题是这样的:现在发现分词会将“11月15...原创 2018-12-04 20:49:00 · 1238 阅读 · 1 评论