独自登高楼 望断天涯路

学lucene 学hadoop,Google/baidu搜:“独自登高楼”,进入本博客

Lucene 2.3 中文分词

在作词时发现JE不是很好用,象美白,祛斑,这些词根本搜索不出来,找不到更好的分词库,一元法又很耗CPU所以决定用二分法。在lucene 2.0+heritrix一书中提到 ChineseAnalyzer中用的是二分切词法,- -试验半天才发现根本不是那么回事,真正的二分切词法是CJKAnalyze...

2008-02-21 15:04:00

阅读数:1480

评论数:0

DWR2.0笔记

在使用DWR2.0从页面传一个bean对象回后台时抛出异常花费很久时间才发现是bean本身的问题,也就是是说,本身的bean必须有各不带参数的构造方法在dwr内部调用了这个构造方法,而我用带参数的构造方法覆盖了默认构造方法造成的开始一直以为是dwr.xml的配置问题呢。后来才发现不是。还有发现1....

2008-02-20 12:09:00

阅读数:1082

评论数:0

JDK5.0的11个主要新特征(三)

7  元数据(Meta data)  请参考  http://www-900.ibm.com/developerWorks/cn/java/j-annotate1/  http://www-900.ibm.com/developerworks/cn/java/j-annotate2.shtml8 ...

2008-02-14 16:37:00

阅读数:1112

评论数:0

JDK5.0的11个主要新特征(二)

2 增强循环(Enhanced for Loop)  旧的循环LinkedList list = new LinkedList(); list.add("Hi");list.add("everyone!");list.add("Was")...

2008-02-14 16:35:00

阅读数:1022

评论数:0

Lucene增加高亮显示后结果更高明显

Lucene增加高亮显示后结果更高明显了,但是返回结果的速度比较慢.原因是Lucene做每一篇文档的相关关键词的高亮显示时,在运行时执行了很多遍的分词操作,降低了性能.TermVector保存Token.getPositionIncrement() 和Token.startOffset() 以及T...

2008-02-13 17:35:00

阅读数:2461

评论数:3

lucene笔记十 :关于高亮显示和显示部分原始文件的原则

高亮显示查询项有一个能使搜索引擎变得更友好的办法,那就是向你的用户提供一些搜索命中结果的上下文,而且更为重要的 是这样做是非常有用 的。最好的例子就是本系统用户在查找天气Web服务时的搜索结果。如下图1所示,每个命中结果包括了匹配文档的三行左右的内容,并且将查询项高亮显示出 来。通常,我们只需要对...

2008-02-13 17:25:00

阅读数:2889

评论数:0

lucene笔记(二)

上次进入了PhraseQuery类的 createWeight方法,其中当PhraseQuery中只有一个关键字时,那么便会调用,TermQuery的createWeight方法,那么开始研究  protected Weight createWeight(Searcher searcher) th...

2008-02-13 17:19:00

阅读数:1649

评论数:1

lucene笔记(一)

Searcher类的方法  public final Hits search(Query query) throws IOException {    return search(query, (Filter)null);  }发现原来是调用另一个重载的search类哦   public Hit...

2008-02-13 16:38:00

阅读数:1780

评论数:0

如何做好一个垂直搜索引擎

本文先引用几句话:  “确解用户之意,切返用户之需。”  “门户网站都想着是怎样省钱,而不是怎样花钱来买技术。”  “搜索引擎不是人人都能做的领域,进入的门槛比较高。”  “只是优秀还不够,最好的方式是将一件事情做到极致。”(google十大真理)  “做搜索引擎需要专注” “对于一项排到第四的业...

2008-02-12 16:56:00

阅读数:1801

评论数:1

Google排名优化-面向搜索引擎的网站设计

内容摘要:目前中文网站在整个互联网中的影响还比较小,这主要是由于中文网站总体的水平(技术上,内容上)都还相对落后造成的,最主要的表现有: 行业知识:不知道搜索引擎对吸引的新用户的重要性,在搜索引擎排名服务中追求“傻瓜相关”,购买一些其实没有太多实际意义的行业关键词。其实能够用户输入的关键词越...

2008-02-12 16:52:00

阅读数:1491

评论数:0

java Singleton模式

 Java Singleton 模式用来保证在运行的应用程序中,一个Class只是实例化一次,也就是只有一个相应的对象存在。在 web 程序中我们会用一个核心的分配功能的Servlet程序,在这里我们就可以运用这种设计模式了。 一般Singleton模式通常有几种种形式: 第一种形式: 定义一个类...

2008-02-11 18:03:00

阅读数:1211

评论数:0

Lucene RAMDirectory 慎用

今天一哥们在做一个程序的时候使用了Lucene做全文检索工具,但是遇到了一个问题:首先就是检索速度非常的慢,而且只要连续检索三四次,程序马上就荡掉。通过日志发现是在CharacterEncodingFilter处报的错,没有办法只能去看filter的源代码。filter的程序很简单,只是做了req...

2008-02-11 18:01:00

阅读数:4737

评论数:0

JMX

 JMX(Java Management Extensions,即Java管理扩展)是一个为应用程序、设备、系统等植入管理功能的框架。JMX可以跨越一系列异构操作系统平台、系统体系结构和网络传输协议,灵活的开发无缝集成的系统、网络和服务管理应用。       Java管理扩展JMX(Java Ma...

2008-02-06 14:00:00

阅读数:949

评论数:0

在Eclipse中的配置Heritrix

网上缺少这方面的文章,即使有也大都行不通,下面列举本人的真实操作以供参考。前提工作:下载2各包 heritrix-1.12.1.zip 和heritrix-1.12.1-src.zip创建java project解压heritrix-1.12.1.zip  将lib目录和webapps目录复制到工...

2008-02-06 10:47:00

阅读数:1738

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭