lucene
文章平均质量分 94
SAN_YUN
这个作者很懒,什么都没留下…
展开
-
lucene smartcn原理
Smartcn分词器是ictclas简化功能的java版 Smartcn分词三步:1)原子切分;2)找出原子之间所有可能的组词方案;3)N-最短路径中文词语粗分三步。例如:“他说的确实在理”这句话。1)原子切分的目的是完成单个汉字的切分。经...原创 2012-08-30 10:54:17 · 202 阅读 · 0 评论 -
如何提升lucene的索引速度
原文: http://wiki.apache.org/lucene-java/ImproveIndexingSpeed 篇文章主要介绍了如何提高Lucene的索引速度。介绍的大部分思路都是很容易尝试的,当然另外一部分可能会加大你程序的复杂度。所以请确认索引速度确实很慢,而且很慢的原因确实是因为Lucene自身而造成的。推荐姐妹篇(http://wiki.apache.org/lucen...原创 2014-02-07 21:16:41 · 303 阅读 · 0 评论 -
LinkedIn公司Zoie实现实时搜索的原理
原文:http://www.cnblogs.com/forfuture1978/archive/2010/11/29/1891476.html一、总体架构Zoie是linkedin公司基于Lucene实现的实时搜索引擎系统,按照其官方wiki的描述为:http://snaprojects.jira.com/wiki/display/ZOIE/OverviewZoie is a...原创 2014-02-07 21:54:20 · 177 阅读 · 0 评论 -
Lucene索引阶段设置Document Boost和Field Boost 实现合理打分
在索引阶段设置Document Boost和Field Boost,存储在(.nrm)文件中。如果希望某些文档和某些域比其他的域更重要,如果此文档和此域包含所要查询的词则应该得分较高,则可以在索引阶段设定文档的boost和域的boost值。这些值是在索引阶段就写入索引文件的,存储在标准化因子(.nrm)文件中,一旦设定,除非删除此文档,否则无法改变。如果不进行设定,则Document...原创 2013-09-03 11:41:42 · 149 阅读 · 0 评论 -
一种基于Lucene的实时搜索方案
实时解决方案在介绍我们产品方案之前,首先介绍下业内常见的实时解决方案,见图1-1实时架构图:图1-1该方案一般是由:内存索引(Ram-IndexA)负责数据更新。内存索引(Ram-IndexA)达到阀值,角色转换成待合并内存索引(Ram-IndexB),同时重新开辟一块新的内存索引(Ram-IndexA)负责新的更新写入,老的内存索引(Ram-IndexB)合并且优化到...原创 2015-03-17 15:30:27 · 329 阅读 · 0 评论