《Lucene+Nutch搜索引擎》看过以后。。。

研究搜索引擎技术快一个月了,最大的老师就是google和自己的编程经验了,另外还有一本我从海淀图书城抓来的《Lucene+Nutch搜索引擎》,从一个门外汉到初级入门者,其中经历了很多痛苦和短暂兴奋。

就在我认为可以大展拳脚时,发现困难超乎自己的想像。首先,关于搜索引擎技术的进阶资料少之又少,现有的资料大多数只是介绍如何使用,如何配置。再者,由于版本更新或者网络文章撰写者水平问题,很多文章都过于浅显,而且还存在很多错误,并不能解决实际问题。我现在的困惑就是,能google过来的资料缺乏深度,如何能进一步深入?

真正拥有搜索引擎技术的商业公司,由于商业秘密的原因,是不能对外公布其核心技术的,这样就造成搜索引擎技术只能掌握在少数人手里,造成学习这项技术的门槛是如此的高。

开源社区对我这样的搜索引擎技术菜鸟来说,可以说是最大的福音,有大量的开源代码可以研读,但是开源系统的通病是,相关资料很缺乏。

我跑遍了中关村所有大大小小的书店,铺天盖地C#,JAVA,FLEX,PHP,C++书,但关于搜索引擎的书,都只有一个小角落。所摆放的书普遍存在学院气息太重、陈旧、肤浅等特点、更有不着边际讲概念的。唉!

本着先入门再入行的原则,拿起了放在门口的《Lucene+Nutch搜索引擎》这本书,看起来很畅销。虽然心里想买回去可能也只看一遍,但是还是拍下了50大元。不但给自己安慰,好歹此书的内容离我研究的开源搜索引擎技术最为接近了。

对于此书的内容,其实我也不想有过多恶评,毕竟这只能算是一个扫盲级工具。或许这是我对现有能找到的搜索引擎资料不满的一个侧面写照。

我真正苛求的是,搜索引擎的真正核心技术的资料,大量的,深入的。描述排序算法的学术报告,如何能够通过高效压缩技术保证文件快速归档与读写,分级缓存并发更新机制,机器学习分词及语义理解,智能自我管理分布式集群,压榨硬件性能的若干办法。。。

不写了,太多了。这还是我能想到的,还有Jeff Dean这种大牛已经现实了的,我们并不知道的东东。

已经深夜,我却“奋”着呢,思考一下平时上班时没时间考虑的问题。在没有更好的办法出现之前,我还会坚持google,坚持open my eyes看代码,坚持买只想看一次的书,坚持在javaeye上“愤”文章。

为了回馈开源社区,我现在能做到的是,尽量把我掌握的技术点blog出来,甚至成了一个dev,直接贡献代码。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值