2008年02月_吴冬冬

原创 Lucene 2.3 中文分词

在作词时发现JE不是很好用，象美白，祛斑，这些词根本搜索不出来，找不到更好的分词库，一元法又很耗CPU所以决定用二分法。在lucene 2.0+heritrix一书中提到 ChineseAnalyzer中用的是二分切词法，- -试验半天才发现根本不是那么回事，真正的二分切词法是CJKAnalyzer。尽信书不如无书，是句真理啊。

2008-02-21 15:04:00 1691

原创 DWR2.0笔记

在使用DWR2.0从页面传一个bean对象回后台时抛出异常花费很久时间才发现是bean本身的问题，也就是是说，本身的bean必须有各不带参数的构造方法在dwr内部调用了这个构造方法，而我用带参数的构造方法覆盖了默认构造方法造成的开始一直以为是dwr.xml的配置问题呢。后来才发现不是。还有发现1.0和2.0的另一点却别就是web.xml配置DWRServlet的servlet-cl

2008-02-20 12:09:00 1312

原创 JDK5.0的11个主要新特征（三）

7 元数据(Meta data)　　请参考　　http://www-900.ibm.com/developerWorks/cn/java/j-annotate1/　　http://www-900.ibm.com/developerworks/cn/java/j-annotate2.shtml8 Building Strings(StringBuilder类)　　　在JDK5.

2008-02-14 16:37:00 1433

原创 JDK5.0的11个主要新特征（二）

2 增强循环(Enhanced for Loop)　　旧的循环LinkedList list = new LinkedList(); list.add("Hi");list.add("everyone!");list.add("Was");list.add("the");list.add("pizza");list.add("good?");for (int i = 0; i

2008-02-14 16:35:00 1180

原创 Lucene增加高亮显示后结果更高明显

Lucene增加高亮显示后结果更高明显了,但是返回结果的速度比较慢.原因是Lucene做每一篇文档的相关关键词的高亮显示时,在运行时执行了很多遍的分词操作,降低了性能.TermVector保存Token.getPositionIncrement() 和Token.startOffset() 以及Token.endOffset() 信息。利用Lucene中新增加的Token信息的保存结果以后，就

2008-02-13 17:35:00 2700 3

转载 lucene笔记十 :关于高亮显示和显示部分原始文件的原则

高亮显示查询项有一个能使搜索引擎变得更友好的办法，那就是向你的用户提供一些搜索命中结果的上下文，而且更为重要的是这样做是非常有用的。最好的例子就是本系统用户在查找天气Web服务时的搜索结果。如下图1所示，每个命中结果包括了匹配文档的三行左右的内容，并且将查询项高亮显示出来。通常，我们只需要对搜索项上下文内容浏览一眼就足以了解该结果是否值得我们深入地进行研究。图4.1 高亮显示查询项Hig

2008-02-13 17:25:00 3453

原创 lucene笔记（二）

上次进入了PhraseQuery类的 createWeight方法，其中当PhraseQuery中只有一个关键字时，那么便会调用，TermQuery的createWeight方法，那么开始研究 protected Weight createWeight(Searcher searcher) throws IOException { return new TermWeight(searche

2008-02-13 17:19:00 1854 1

原创 lucene笔记（一）

Searcher类的方法 public final Hits search(Query query) throws IOException { return search(query, (Filter)null); }发现原来是调用另一个重载的search类哦 public Hits search(Query query, Filter filter) throws IOExcep

2008-02-13 16:38:00 2006

转载如何做好一个垂直搜索引擎

本文先引用几句话:　　“确解用户之意，切返用户之需。”　　“门户网站都想着是怎样省钱，而不是怎样花钱来买技术。”　　“搜索引擎不是人人都能做的领域，进入的门槛比较高。”　　“只是优秀还不够，最好的方式是将一件事情做到极致。”(google十大真理)　　“做搜索引擎需要专注” “对于一项排到第四的业务，门户很难做到专注。”　　“用户无法描述道他要找什么，除非让他看到想找的东西

2008-02-12 16:56:00 2098 1

转载 Google排名优化－面向搜索引擎的网站设计

内容摘要：目前中文网站在整个互联网中的影响还比较小，这主要是由于中文网站总体的水平（技术上，内容上）都还相对落后造成的，最主要的表现有：行业知识：不知道搜索引擎对吸引的新用户的重要性，在搜索引擎排名服务中追求“傻瓜相关”，购买一些其实没有太多实际意义的行业关键词。其实能够用户输入的关键词越多，其目标性越强，这样的客户价值越高。用户能够直接定位到产品具体内容页比到网站首页有价

2008-02-12 16:52:00 1956

转载 java Singleton模式

　Java Singleton 模式用来保证在运行的应用程序中，一个Class只是实例化一次，也就是只有一个相应的对象存在。在 web 程序中我们会用一个核心的分配功能的Servlet程序，在这里我们就可以运用这种设计模式了。一般Singleton模式通常有几种种形式: 第一种形式: 定义一个类，它的构造函数为private的，它有一个static的private的该类变量，在类初始化时实例话，

2008-02-11 18:03:00 1410

今天一哥们在做一个程序的时候使用了Lucene做全文检索工具，但是遇到了一个问题：首先就是检索速度非常的慢，而且只要连续检索三四次，程序马上就荡掉。通过日志发现是在CharacterEncodingFilter处报的错，没有办法只能去看filter的源代码。filter的程序很简单，只是做了request，response的编码，问题不可能出在这里啊！但是日志显示的错误信息就是从这个filter产

2008-02-11 18:01:00 5446

转载 JMX

JMX（Java Management Extensions，即Java管理扩展）是一个为应用程序、设备、系统等植入管理功能的框架。JMX可以跨越一系列异构操作系统平台、系统体系结构和网络传输协议，灵活的开发无缝集成的系统、网络和服务管理应用。 Java管理扩展JMX(Java Management Extensions)是一个为应用程序植入管理功能的框架。JMX是一套标准的代理

2008-02-06 14:00:00 1241

原创在Eclipse中的配置Heritrix

网上缺少这方面的文章，即使有也大都行不通，下面列举本人的真实操作以供参考。前提工作：下载2各包 heritrix-1.12.1.zip 和heritrix-1.12.1-src.zip创建java project解压heritrix-1.12.1.zip 将lib目录和webapps目录复制到工程主目录下，将lib目录下的所有jar添加到工程的build path中。解压heri

2008-02-06 10:47:00 1991

独自登高楼望断天涯路