2007年12月_kindy1022

12月 11月

转载 Linux 文件内容查看工具介绍

1、cat 显示文件连接文件内容的工具；cat 是一个文本文件查看和连接工具。查看一个文件的内容，用cat比较简单，就是cat 后面直接接文件名。比如：[root@localhost ~]# cat /etc/

2007-12-21 11:23:00 548

本文先引用几句话：1.“确解用户之意，切返用户之需。”2.“门户网站都想着是怎样省钱，而不是怎样花钱来买技术。”3.“搜索引擎不是人人都能做的领域，进入的门槛比较高。”4.“只是优秀还不够，最好的方式是将一件事情做到极致。”（google十大真理）5.“做搜索引擎需要专注” “对于一项排到第四的业务，门户很难做到专注。”6.“用户无法描述道他要找什么，除非让他看到想找的东西。”7. “所谓楔形，其

2007-12-20 21:17:00 776

转载垂直搜索引擎的选型

网页搜索引擎的存在有他存在的土壤，土壤环境是怎么样的呢？1.海量的数据，互联网上有海量的数据，并且这些数据在快速增长、不断更新2.分散的数据，这些数据存在于成千上万个网站中3.多样化的数据4.用户多样化的数据搜索需求5.用户对搜索数据的实时性要求不是非常强6.用户对这些数据有整合使用的需求，并且这种需求量很大7.能够很好的对整合来的数据进行处理，能够完整的满足用户的这种需求，提供完整的信息检索体验

2007-12-20 21:16:00 651

转载中文搜索引擎四大技术揭密:网络蜘蛛

随着搜索经济的崛起，人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业，会根据搜索引擎的知名度以及日流量来选择是否要投放广告等；作为普通网民，会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料；作为学者，会把有代表性的搜索引擎作为研究对象…… 而作为一个网站的经营者，其更关心的或许是如何通过网络载体让更多的网民知道自己的网站，进而获得更高的流量和知名度。这其中，搜索引擎已经

2007-12-20 21:12:00 795

转载中文搜索引擎四大技术揭密:系统架构

互联网发展的今天，一方面离不开其开放、共享的特性带给人们的全新体验，另一方面也离不开数以亿计的为其提供各类丰富内容的网络节点。互联网被普及前，人们查阅资料第一想到的便是拥有大量书籍资料的图书馆，到了今天你怎么想？或许今天的很多人都会选择一种更方便、快捷、全面、准确的方式——互联网。你可以坐在家里轻点几下鼠标就查到想要的各类信息，这在互联网没有被普及之前，还都仅是一个梦而已，但如今这一切已成为了可能

2007-12-20 21:11:00 993

原创中文搜索引擎四大技术揭密:中文分词

信息的飞速增长，使搜索引擎成为人们查找信息的首选工具，Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加，越来越多的公司开发出自己的搜索引擎，阿里巴巴的商机搜索、8848的购物搜索等也陆续面世，自然，搜索引擎技术也成为技术人员关注的热点。搜索引擎技术的研究，国外比中国要早近十年，从最早的Archie，到后来的Excite，以及altvista、o

2007-12-20 21:10:00 885

转载 Java中四种XML解析技术

在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server SP4、Sun JDK 1.4.

2007-12-20 18:50:00 484

转载 [java/javascript]正则表达式入门文档[二]

2. 正则表达式中的一些高级规则2.1 匹配次数中的贪婪与非贪婪在使用修饰匹配次数的特殊符号时，有几种表示方法可以使同一个表达式能够匹配不同的次数，比如："{m,n}", "{m,}", "?", "*", "+"，具体匹配的次数随被匹配的字符串而定。这种重复匹配不定次数的表达式在匹配过程中，总是尽可能多的匹配。比如，针对文本 "dxxxdxxxd"，举例如下：

2007-12-19 21:25:00 823

转载正则表达式学习文档

来源 http://www.i0o.cn/article.asp?id=21 引言　　正则表达式（regular expression）描述了一种字符串匹配的模式，可以用来：（1）检查一个串中是否含有符合某个规则的子串，并且可以得到这个子串；（2）根据匹配规则对字符串进行灵活的替换操作。　　正则表达式学习起来其实是很简单的，不多的几个较为抽象的概念也很容易理解。之所以很多人

2007-12-19 21:23:00 479

转载 Lucene-2.0学习文档(六)

到现在我们已经可以用lucene建立索引了下面介绍一下几个功能来完善一下：1．索引格式其实索引目录有两种格式，一种是除配置文件外，每一个Document独立成为一个文件（这种搜索起来会影响速度）。另一种是全部的Document成一个文件，这样属于复合模式就快了。2.索引文件可放的位置：索引可以存放在两个地方1.硬盘，2.内存放在硬盘上可以用FSDirectory()，放在内存的用RAMDirect

2007-12-19 21:18:00 574

原创中文分词源代码 - java

package org.apache.lucene.analysis.cn;/** * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this

2007-12-19 21:16:00 1715 1

转载基于Lucene/XML的站内全文检索解决方案

为Lucene做一个通用XML接口一直是我最大的心愿：更方便的在WEB应用中嵌入全文检索功能提供了XML的数据输入接口：适合将原有基于各种数据库的数据源导入到全文索引中，保证了数据源的平台无关性；通过了基于XML的搜索结果输出：方便了通过XSLT进行前台的结果显示； MySQL /

2007-12-19 21:14:00 773

转载全文检索的实现：Luene全文索引和数据库索引的比较

Lucene的API接口设计的比较通用，输入输出结构都很像数据库的表==>记录==>字段，所以很多传统的应用的文件、数据库等都可以比较方便的映射到Lucene的存储结构/接口中。总体上看：可以先把Lucene当成一个支持全文索引的数据库系统。比较一下Lucene和数据库： Lucene 数据库

2007-12-19 21:13:00 2289

转载简化的查询分析器，删除的实现，定制的排序，应用接口的扩展

简化的查询分析器个人感觉lucene成为JAKARTA项目后，画在了太多的时间用于调试日趋复杂QueryParser，而其中大部分是大多数用户并不很熟悉的，目前LUCENE支持的语法：Query ::= ( Clause )*Clause ::= ["+", "-"] [ ":"] ( | "(" Query ")")中间的逻辑包括：and or + - &&||等符号，而且还有"短

2007-12-19 21:09:00 634

转载 Lucene-2.0学习文档(五)

2.多索引搜索MultiSearcher在构造的时候传进去一个Searcher数组即可3.过滤器Filter看个例子：public void FilterTest() throws IOException, ParseException { IndexWriter indexWriter = new IndexWriter("C://FilterTest

2007-12-19 21:07:00 562

转载 Lucene-2_0学习文档(四)

下面是搜索的例子:[code]public void SearchSort1() throws IOException, ParseException{ IndexSearcher indexSearcher = new IndexSearcher("C://indexStore"); QueryParser queryParser = new QueryParser(

2007-12-19 21:05:00 613

转载 Lucene-2.0学习文档(三)

IndexWriter(File path, Analyzer a, boolean create)IndexWriter(String path, Analyzer a, boolean create)可见构造它需要一个索引文件目录，一个分析器(一般用标准的这个)，最后一个参数是标识是否清空索引目录它有一些设置参数的功能如：设置Field的最大长度看个例子：public void IndexMa

2007-12-19 21:03:00 639

转载 Lucene-2.0学习文档(二)

下面讲一下索引的建立其实从上面的例子就可以看出建立索引就用到Document,IndexWriter,Field。最简单的步骤就是：首先分别new 一个Document，IndexWriter,Field然后用Doument.add()方法加入Field,其次用IndexWrtier.addDocument()方法加入Document。最后调用一下IndexWriter.c

2007-12-19 21:02:00 639

转载 Lucene-2.0学习文档(一)

Lucene是apache组织的一个用java实现全文搜索引擎的开源项目。其功能非常的强大，api也很简单。总得来说用Lucene来进行建立和搜索和操作数据库是差不多的(有点像)，Document可以看作是数据库的一行记录，Field可以看作是数据库的字段。用lucene实现搜索引擎就像用JDBC实现连接数据库一样简单。Lucene2.0，它与以前广泛应用和介绍的Lucene 1.4.3并不兼

2007-12-19 21:01:00 794