lucene
漱冰濯雪
这个作者很懒,什么都没留下…
展开
-
如何设置SOLR的高亮 (highlight)?
打开SOLR的核心配置文件: solrconfig.xml 找到 standard request handler 写入以下XML配置代码: [c-sharp] view plaincopy "standard" class="solr.SearchHandler" default="true">原创 2016-01-04 15:37:49 · 6724 阅读 · 0 评论 -
Tika常见格式文件抽取内容并做预处理
摘要:本文主要针对自然语言处理(NLP)过程中,重要基础部分抽取文本内容的预处理。首先我们要意识到预处理的重要性。在大数据的背景下,越来越多的非结构化半结构化文本。如何从海量文本中抽取我们需要的有价值的知识显得尤为重要。另外文本格式常常不一,诸如:pdf,word,excl,xml,ppt,txt等常见文件类型你或许经过一番周折还是有办法处理的。倘若遇到database,html,邮件,RTF,图转载 2016-05-04 16:37:08 · 11703 阅读 · 0 评论 -
根据mimetype取扩展名
TikaConfig config = TikaConfig.getDefaultConfig(); MimeType mimeType = config.getMimeRepository().forName("application/octet-stream"); String extension = mimeType.getExtension(原创 2016-05-04 16:54:33 · 1007 阅读 · 0 评论