用户操作
[即时聊天] [发私信] [加为好友]
田春峰ID:accesine960
749041次访问,排名48好友15人,关注者142
请用一段话来描述您自己,如性格、爱好、生活态度、工作情况、受教育状况等。让大家更了解你,不要超过1000个汉字
accesine960的文章
原创 245 篇
翻译 10 篇
转载 33 篇
评论 545 篇
田春峰的公告

天天多么乐

田春峰

accesine's Rapleaf Score

关于我的信息链接

Donews Blog

Subscribe with Bloglines

my qq number
最近评论
123:scions of fate
scions of fate gold
http://www.sap99.com/
,SAP免费资料下载
SAP99资料多多

http://www.sap99.com

有很多的学习资料,推荐一下,
秒大刀:这有个免费的中文分词系统,貌似还不错,而且官方提供免费更新
http://dev.8jiao.com/index.php/Wb_cws_index
Kevinsh:认同jiaomeng的观点, 错误 != 误差. 个人认为误差是测量值和实际值之间的差别, 和机械加工中偏差有点像, 应该在可接受的范围内. 错误的值完全不同于实际值,比如一个球的颜色是实际值正红色(0xFF0000), 0xFF0001认为是误差,而0x00FF00就是错误了. Bloom Filter中的错误概率比较低时, 比如<0.001%, 认为是可接受的, 错误忽略. 还有个……
chan ming:B to B SERACHENGINE PARTNER WANTED

搜索引擎技术总监 兼職亦可 賣軟件亦可 按件計外包 亦可

提供 “大事业、大学校、大家庭”的平台为每一位员工造就了人生与事业的舞台,让员工与企业共同发展。

共圖大業亦可 本公司有殺着 本公司高超生意頭腦 必能為相方帶來成功感, ……
文章分类
收藏
相册
Computer Pic
domolo
life
lucene
MsnRobot DingDang
searchengine
search-engine
seo
个人信息
其他
.net
C++
os
sp
工作流
开发工具
名人连接
数据库相关
搜索引擎
网络开发
我的好朋友
移动开发
组件
存档
软件项目交易
订阅我的博客
XML聚合  FeedSky
订阅到鲜果
订阅到Google
订阅到抓虾
订阅到BlogLines
订阅到Yahoo
订阅到GouGou
订阅到飞鸽
订阅到Rojo
订阅到newsgator
订阅到netvibes

原创 怎么会是lucene?收藏

新一篇: 计算所汉语词法分析系统ICTCLAS 字典格式解析 | 旧一篇: 在windows下模拟鼠标键盘输入的几种方法 (附带源代码)

怎么会是lucene?
   

       在好朋友lhelper的帮助下,开始学习全文搜索引擎lucene了。从网上搜索了一些全文搜索的资料后发现这方面的产品很多,光是在http://www.searchtools.com 上你可以查到100多个搜索的工具(包括源代码)。如果你在百度上以“全文搜索”为关键字 搜索的话,会发现除了理论上的介绍以外,大部分的实例都是来自lucene。为什么只有lucene这么广为接受呢?

       这种感觉对我来讲,就好比keso张大嘴巴说:怎么会是新浪?

       我想一个产品的普及有技术上的先进是必要条件,产品推广是充分条件。

       而这两条lucene都具备了。

       首先Lucene的贡献者Doug Cutting是一位资深全文索引/检索专家。这样的大腕开发出来的产品自然让大家心服口服。可我认为这还不是lucene如此广受欢迎的主要原因。我认为主要原因是:

1、              Lucene不是一个完整的全文索引应用,而是是一个用JAVA写的全文索引引擎工具包,它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。这样的定位,使得lucene有很高的抽象层次,便于扩展和整合到已有的系统。因为对于大多数的全文搜索应用来说,我们需要的是一个开发工具包而不是最终产品(虽然很多搜索引擎也可以扩展特性功能)。这也是程序员最愿意接受的封装层次。

2、              LuceneAPI接口设计的比较通用,输入输出结构都很像数据库的表==>记录==>字段,所以很多传统的应用的文件、数据库等都可以比较方便的映射到Lucene的存储结构/接口中。(上面语句有些来自 在应用中加入全文检索功能——基于JAVA的全文索引引擎Lucene简介)。

       第二条关于Lucne 的推广。 Lucene在国内如此普及,我想车东的一系列搜索相关的文章介绍起了很大的推动作用。正如竹笋炒肉说的:不仅仅在推广和介绍方面,车东Lucene的汉化及web应用,也作出了极大的极大的贡献。

       尽管有一些介绍其他搜索引擎的文章,但是影响要小多了。

 

       在阅读了国内关于lucene的很多文章后,我发现大部分的介绍都和车东的文章雷同(文字出入很大,估计不是抄袭,呵呵),但都是介绍如何迅速构建一个lucene式的服务,大部分属于hello world级别的。

在车东的文章中提到中文索引文件所占的空间和原文几乎一样大!这一点可让人无法接受,即使英文资料索引所占空间也达到了原文的30%50%。如此发展下去google、百度们一定是海量硬盘消费的最大客户了。很显然对索引文件的优化是搜索引擎一个重要的部分。

另外如果要想让lucene成为分布式的搜索引擎,也要从索引文件下手,要么扩展索引文件成为分布式文件系统,要么把索引文件放到数据库中,利用数据库的分布式性能提供分布式搜索服务。

既然如此,我就有了分析lucene索引文件格式的想法。

       我会在以后的文章中重点分析lucene索引的文件格式。

        lucene目前已经提供了lucene索引文件格式的标准文档,很多人基于此开发出了多种语言版本的lucene.

ref: http://java2.5341.com/1_98.html 

一个针对DAo的演示例子

基于JAVA技术的搜索引擎的研究与实现 

http://udoo.51.net/mt/archives/000089.html

http://www.theserverside.com/news/thread.tss?thread_id=23043

http://www.tbray.org/ongoing/When/200x/2003/07/30/OnSearchTOC

 Lots Of Interest in Lucene Desktop

http://www.getopt.org/luke/


       田春峰

       2004-12-23

发表于 @ 2004年12月23日 22:59:00|评论(loading...)|编辑

新一篇: 计算所汉语词法分析系统ICTCLAS 字典格式解析 | 旧一篇: 在windows下模拟鼠标键盘输入的几种方法 (附带源代码)

评论

#Kangsheng 发表于2005-03-19 12:34:00  IP:
TrackBack来自《不同规则的中文分词对Lucene索引的影响》

Ping Back来自:blog.csdn.net
#unruledboy(灵感之源) 发表于2004-12-28 18:49:00  IP: 61.235.80.*
交流一下?我的msn是unruledboy@hotmail.com
#seasky7 发表于2005-01-19 10:10:00  IP: 218.80.68.*
学习、交流!!!

MSN:jianfeizhu@hotmail.com
#kely 发表于2005-03-23 17:31:00  IP: 218.4.73.*
能将源代码给我发一份吗?我的电子邮件为 prettykely@gmail.com
#qaqaqa 发表于2005-04-16 17:01:00  IP: 221.8.162.*
Lucene.net--主要讨论Lucene.net的相关技术

QQ群:1259803
#我们实现了全文检查与中文分词整合 发表于2005-04-28 16:52:00  IP: 211.144.8.*
msn: cep@365a.com
#teffguo 发表于2005-05-05 14:09:00  IP: 218.70.247.*
QQ群:8797792
现已有55名成员
#lucene技术实践 发表于2006-02-25 16:49:00  IP: 59.44.126.*
我的msn为ningning1119@163.com
多交流!
#口水 发表于2006-03-21 09:50:00  IP: 221.204.88.*
本人刚刚开始学习Lucene.net,望高手指点.
QQ群:7983154,高手请进!!!
#很想学Lucene的人 发表于2006-09-06 16:24:00  IP: 220.196.17.*
不错,能给我一个java使用lunece的例子吗?我的邮箱是bysshijiajia@163.com
#hsl 发表于2008-07-10 16:17:34  IP: 221.221.147.*
lucene群63609991,欢迎加入
发表评论  


登录
Csdn Blog version 3.1a
Copyright © 田春峰