![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Lucene
sealbird
这个作者很懒,什么都没留下…
展开
-
自定义排序<1>
说明: 用户会员登陆后,根据该会员属于的类别排序(主要表现在查询产品或其他频道时),这样有助于该会员查到属于自已的东西,分类与当前会员相同的排前import org.apache.lucene.index.Term;import org.apache.lucene.index.TermEnum;import org.apache.lucene.index.TermDocs;...原创 2010-07-08 11:42:52 · 140 阅读 · 0 评论 -
亿级数据的高并发通用搜索引擎架构设计[
from [url=http://blog.s135.com/post/385/http://blog.s135.com/post/385/[/url][code="java"][ 2008-12-9 08:47 | by 张宴 ] [文章作者:张宴 本文版本:v1.0 最后修改:2008.12.09 转载请注明原文链接:http://blog.s135.com/post/385/]...原创 2011-03-27 23:56:09 · 92 阅读 · 0 评论 -
Lucene3.0索引格式相关网址
【Lucene3.0 初窥】索引文件格式(1):预备知识 http://hxraid.iteye.com/blog/657868原创 2010-10-29 11:14:01 · 72 阅读 · 0 评论 -
一个简单索引的配置文件
索引模式(稳定,快速,可迅速恢同步,可迅速恢复性,同一结点间的数据也能讯速同步\)0\适合对数据库1\能正常索引数据2\能把索引的索引数据增量传送给集群结点3\当总索引系统出错时,能经过重启动,迅速恢复正常,并能把数据适时同步到集群结点4\当集群结点主服务器出现异常时,能迅速探测到该结点中其他机器的可用性,并且临时指定该机器为该结点中主服务器,索引服务器要记录这种情况的异常...原创 2010-10-22 18:12:52 · 150 阅读 · 0 评论 -
百度分词算法探秘 获取优质长尾流量
注:本文对百度分词切词研究及如何获取优质长尾流量分析的很有道理,故转到这里供广大博主朋友们学习。对与百度的分词研究原来也没有在意,但有一次我在作优化时无意中发现一个词也就是差了一个字,结果排名大不相同。我作的是二手房的关键词,但是我的页面上的关键词设置却是“二手房源”,可能有的朋友会说,这个没什么问题啊,“二手房源”不是包含了二手房这个关键词吗?如果没有仔细对百度的分词进行研究,大家可...原创 2010-10-19 13:25:47 · 120 阅读 · 0 评论 -
取重网记
搜索引擎重复网页发现技术分析 http://www.xueboke.com/html/bokezhishi/SEOboke/200803/16-110_2.html原创 2010-10-19 09:17:20 · 80 阅读 · 0 评论 -
lucene2.32 and lucene3.02 搜索对比
lucene2.32 and lucene3.02 搜索对比 ,三次搜索结果的归结所花时间(应用较特殊)[code="java"][quote]condition java -Xmx24g -Xms24g -Xmn23g -Xss128k -XX:+UseConcMarkSweepGC -XX:CMSFullGCsBeforeCompaction=8 -XX:+UseCMSCompact...原创 2011-01-04 17:34:32 · 72 阅读 · 0 评论 -
Lucene2.32升级到3.0 前期记录点
2010.09.141\NIOFSDirectory 的使用2\搜索基类的重写3\聚类的处理4\搜索缓存的处理5\切换的处理6\索引的处理及分布式索引的考虑7\分词的处理8\分布式搜索的考虑9\ 使用 FieldSelector...原创 2010-09-14 16:38:07 · 81 阅读 · 0 评论 -
统计类优化算法初步
[code="java"]public class testcache { class A{ public int []tagid; public int []tagvalueid; } public A [] tmpA; public void test(){// tmpA=new A[20000000]; tmpA=new A[200...原创 2010-09-01 17:54:28 · 159 阅读 · 0 评论 -
【Lucene3.0 初窥】索引文件格式
【Lucene3.0 初窥】索引文件格式(5):posting数据[.frq/.prx] 此博客具有详细的lucene3.0索引格式的说明: [b][code="java"]http://hxraid.iteye.com/blog/657803[/code][/b]原创 2010-08-11 15:35:55 · 102 阅读 · 0 评论 -
lucene搜索结果排序之Payload
提高特定词汇的评分利用 Payload 功能,可以提高文档中特定词汇的评分,如黑体词汇、斜体词汇等,从而优化搜索结果排序。下面还以文档 D0 和 D1 为例说明如何设置和检索 Payload。其中GPRS为专业术语,但search “GPRS描述”的时候,返回的D1的得分比D0高。但这不是我们想要的结果,我们可能想要D0得分高一些,这时可在incrementToken中,自定义词的...原创 2010-08-06 10:34:40 · 246 阅读 · 0 评论 -
关于搜索聊天记录
[code="java"]奶酪(524300045) 16:33:15 语言都是一样,思想最重要andy(40508730) 16:33:27 伟大的小白(439297317) 16:31:16各种语言都用 不是说 让做刷马桶的去烧饭你刷马桶要用马桶刷你烧饭要用烧饭的andy(40508730) 16:33:36 主要思想是完成工作0.0(23766780...原创 2011-11-24 11:14:20 · 256 阅读 · 0 评论