lucene
文章平均质量分 59
iteye_10365
这个作者很懒,什么都没留下…
展开
-
How to make indexing faster
Here are some things to try to speed up the indexing speed of your Lucene application. Please see ImproveSearchingSpeed for how to speed up searching. Be sure you really need to speed things up. M...原创 2010-08-23 09:02:42 · 64 阅读 · 0 评论 -
Java陷阱之assert关键字
Java陷阱之assert关键字 一、概述 在C和C++语言中都有assert关键,表示断言。 在Java中,同样也有assert关键字,表示断言,用法和含义都差不多。 二、语法 在Java中,assert关键字是从JAVA SE 1.4 引入的,为了避免和老版本的Java代码中使用了assert关键字导致错误,Java在执行的时候默认是不启动断言检查的(这个时候...原创 2010-09-04 14:48:29 · 61 阅读 · 0 评论 -
standford vs opennlp
重新训练的模型主要针对短角色,即词串数不大于3的角色,这是因为考虑到在实际环境下一般人难以输入长句,一般口语化的句子其实都比较短。手工测试训练后的效果至少不比之前的模型差。然而,使用stanford parser为基础的语义分析有一个致命的缺点:分析严重受制于stanford parser的结果,而stanford parser是将分词、词性标注都集成在一起,难以使用第三方的分词器和词性标注器...原创 2010-09-04 06:59:11 · 238 阅读 · 0 评论 -
Lucene Payload 的研究与应用
http://www.ibm.com/developerworks/cn/opensource/os-cn-lucene-pl/index.html 2008 年 11 月 06 日 Payload (元数据) 诞生于 Lucene 的2.2 版本,它是在 Lucene 2.1 索引文件格式的基础上扩展而来,提供了一种可以灵活配置的高级索引技术,在某些特定应用场景下能优化基于 Luce...原创 2010-09-02 21:51:08 · 81 阅读 · 0 评论 -
standardtokenizer
/** * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this work for additional information regarding ...原创 2010-09-02 14:50:09 · 453 阅读 · 0 评论 -
attributesource
package org.apache.lucene.util; /** * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this work fo...原创 2010-09-02 14:45:44 · 131 阅读 · 0 评论 -
token
package org.apache.lucene.analysis; import org.apache.lucene.analysis.tokenattributes.OffsetAttribute; import org.apache.lucene.analysis.tokenattributes.FlagsAttribute; import org.apache.lucene.a...原创 2010-09-02 14:37:29 · 107 阅读 · 0 评论 -
改写lucene的Analyzer,添加自己的中文分词系统的方法
/** *作者:夺天策 百度空间名:刹那剑欣 *转载请说明出处! */ 这几天完成了我的中文分词算法,就着手把它加入到lucene中去,google,baidu一下,倒是有一些人写的中文分词,和加入的方法,但是那些都是符合他们自己写的分词算法的添加方法,没有讲到lucene的添加接口,没有将原理,于是就自己研究了下咯,看了下lucene的源代码,总结出方法,希望...原创 2010-09-02 12:44:32 · 109 阅读 · 0 评论 -
Apache Lucene - Index File Formats
http://lucene.apache.org/java/3_0_0/fileformats.html#Index File Formats Index File Formats Definitions Inverted Indexing Types of Fields Segments Document Numbers Overview File Naming...原创 2010-09-01 10:34:57 · 121 阅读 · 0 评论 -
[zz]学习lucene应该多看源代码
最近在为星网将要上线的商城系统开发搜索功能,要求使用lucene和数据库。由于lucene是完全开源的,所以对于学习与使用lucene的人,这么好的源代码资源一定要看并且利用,只有多看源代码,自身的能力才会提高,lucene使用起来,效率也会更高。 从一个小例子中,可以看出看源代码的好处。 商品搜索时,肯定要使用核心包下的org.apache.lucene.search.Searcher类...原创 2010-08-31 14:45:24 · 80 阅读 · 0 评论 -
基于P2P的Web搜索强于集中式搜索引擎?
搜索引擎已经成为一种重要的网络信息导航工具,它帮助人们在海量 Web 数据中快速方便地找到所需信息.随着 Web数据量的持续快速增长,传统集中式搜索引擎已经越来越不能满足人们不断增长的信息获取需求.一方面,集中式搜索引擎的服务器处理能力有限,目前最好的搜索引擎之一 Google 使用上万台 PC 组成的机群服务器,也只能索引到整个 Web 网页总数的大约 1/10,这还不包括数量为表层网页(...原创 2011-02-14 22:51:24 · 195 阅读 · 0 评论