今天看了看nutch wiki上的一篇爬虫解析的文档,顺带发现了它里面有一个设计的不错的plugin系统,这个才是核心所在,我觉得nutch的偏向插件的设计思想十分的明智,从emacs到eclipse那一个不是因为插件系统的强扩展性而流行壮大的呢?
而且这样的设计区分开了两类程序员:系统程序员和应用程序员。前者可以专心编写高效可靠的核心,后者就可以给整套系统带来各种各样的应用插件。充分的利用了开源的优势。
顺便提到一句,国内有很多人在研究搜索引擎,我也看到了很多不错的实现,可是nutch到现在还没有一个比较成熟的中文分词技术,我觉得十分的可惜,阻碍了nutch在国内的传播。中科院的那套分词真的不错,如果作者真的有心我想应该努力将其加入到nutch中去,可以更好的推广,这是一个双赢的模式。
而且这样的设计区分开了两类程序员:系统程序员和应用程序员。前者可以专心编写高效可靠的核心,后者就可以给整套系统带来各种各样的应用插件。充分的利用了开源的优势。
顺便提到一句,国内有很多人在研究搜索引擎,我也看到了很多不错的实现,可是nutch到现在还没有一个比较成熟的中文分词技术,我觉得十分的可惜,阻碍了nutch在国内的传播。中科院的那套分词真的不错,如果作者真的有心我想应该努力将其加入到nutch中去,可以更好的推广,这是一个双赢的模式。