lucene实战管理
鹅
这个作者很懒,什么都没留下…
展开
-
使用 Apache Solr 实现更加灵巧的搜索,第 1 部分: 基本特性和 Solr 模式
使用 Apache Solr 实现更加灵巧的搜索,第 1 部分: 基本特性和 Solr 模式使用 Solr 进行索引、搜索和层面浏览Solr 是一种可供企业使用的、基于 Lucene 的搜索服务器,它支持层面搜索、命中醒目显示和多种输出格式。在这篇分两部分的文章中,Lucene Java™ 的提交人 Grant Ingersoll 将介绍 Solr 并向您展示如何轻松地将其表现优异的全转载 2015-07-29 15:46:11 · 392 阅读 · 0 评论 -
庖丁系统的分词原理
庖丁系统是个完全基于lucene的中文分词系统,因而它就是重新了一个analyer,叫做PaodingAnalyzer,这个analyer的核心任务就是生成一个可以切词的TokenStream这些都是lucene的结构设计,如果要和lucene一起使用就要这么写。 庖丁系统中的TokenStream就是PaodingTokenizer,它提供了我们用于分词的核心方法next,转载 2014-12-30 22:51:03 · 1216 阅读 · 0 评论 -
用于Lucene的各中文分词比较
对几种中文分析器,从分词准确性和效率两方面进行比较。分析器依次为:StandardAnalyzer、ChineseAnalyzer、 CJKAnalyzer、IK_CAnalyzer、MIK_CAnalyzer、MMAnalyzer(JE分词)、PaodingAnalyzer。单纯的中文分词的实现一般为按字索引或者按词索引。按字索引顾名思义,就是按单个字建立索引。按词索引就是按词喽,根据词库中转载 2015-02-02 09:06:49 · 1020 阅读 · 0 评论 -
Lucene的数字范围搜索 (Numeric Range Query)原理
0. 全文索引的核心就是倒排索引. 1. 若数字不支持范围查询, 直接变成字符串查找即可 2. 如果要支持范围查询, 直接的字符串存储支持么? 目前lucene要求term按照字典序(lexicographic sortable)排列,然后它的范围查询根据tii找到范围的起始Term,然后把这中间的所有的Term展开成一个BooleanQuery。转载 2014-12-18 17:03:33 · 1040 阅读 · 0 评论 -
oozie 工作流调度引擎总结
oozie是服务于hadoop生态系统的工作流调度工具,job运行平台是区别于其他调度工具的最大的不同。但其实现的思路跟一般调度工具几乎完全相同。首先是作为调度系统两大核心:依赖和触发。依赖可以是条件依赖,比如,资源依赖,依赖于某些数据文件的存在,也可以是任务依赖,比如依赖于另一个job的完成。在oozie里,每一个job对应一个action节点,这个节点可以是java,hadoop FS,m转载 2014-10-06 19:24:13 · 666 阅读 · 0 评论 -
Hadoop Tool,ToolRunner原理分析
Hadoop Tool,ToolRunner原理分析By Mr.King on2013/05/23 先看Configurable 接口:1234public interface Configurable{void setConf(Configuration conf); Configuration getConf()转载 2014-09-23 18:47:28 · 578 阅读 · 0 评论 -
【Lucene3.0 初窥】文本分析器Analyzer
一个优秀的IR system要做好的第一件事就是利用自然语言处理技术(NLP)对文本进行分析。其中分词是最基本的,其性能直接决定IR system的搜索精度和速度。因此,大型Web搜索引擎都有自己的分词工具。 Lucene3.0 的分析器由三个包组成:(1) org.apache.lucene.analysis 是Lucene分析器的基本结构包。包含了分析器最底层的结构(Analyze转载 2014-08-09 11:17:10 · 462 阅读 · 0 评论 -
Hadoop本地模式
如何安装和配置Hadoop已经有很多资料可以查了,官方文档http://hadoop.apache.org/common/docs/r0.19.2/cn/quickstart.html。但是还是经常会出一些问题。本地模式是推荐的开发模式,在Windows上配合Cygwin容易出错。Hadoop的三种模式:单机模式伪分布式模式完全分布式模式分布式模式增加了Name转载 2014-08-04 20:21:14 · 472 阅读 · 0 评论 -
常用文件的mine类型
MIME, 全称为“Multipurpose Internet Mail Extensions”, 比较确切的中文名称为“多用途互联网邮件扩展”。它是当前广泛应用的一种电子邮件技术规范,基本内容定义于RFC 2045-2049什么是MIME类型?-在把输出结果传送到浏览器上的时候,浏览器必须启动适当的应用程序来处理这个输出文档。这可以通过多种类型MIME(多功能网际邮件扩充协议)来完成。在HT转载 2014-06-25 20:14:14 · 7550 阅读 · 0 评论 -
mmseg算法
MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching AlgorithmPublished: 1996-04-29Updated: 1998-03-06Document updated: 2000-03-12License转载 2015-07-24 13:24:15 · 755 阅读 · 0 评论