1.多语言异构组成web客户端程序,解决办法
java本地调用: Runtime.getExec http://www.jspcn.net/htmlnews/110493381406213.html
php_java调用 :http://blog.csdn.net/aaliwen/article/details/5993703
perl调java:http://www.builder.com.cn/2007/0310/380843.shtml2.爬虫参考
Hadoop 一脉相承的另外两个开源项目 Nutch 和 Lucene ( 三者的创始人都是 Doug Cutting )
nutch(搜索引擎 and 全文检索) 与 lucence 区别
3.设计
爬虫:多线程框架
总体:多模块定好接口齐头并进
抓取层,操作层,规则层
关于规则:http://dev.yesky.com/478/2034478.shtml
开发人员在程序中使用规则引擎基本遵循以下5个典型的步骤:创建规则引擎对象;向引擎中加载规则集或更换规则集;向引擎提交需要被规则集处理的数据对象集合;命令引擎执行;导出引擎执行结果,从引擎中撤出处理过的数据。使用了规则引擎之后,许多涉及业务逻辑的程序代码基本被这五个典型步骤所取代。
drools示例:http://www.ibm.com/developerworks/cn/java/j-drools/。
不错的资料和总结:
http://www.open-china.net/blog/11367.html
使用规则引擎的效果举例——信用卡申请示例:
http://mmscau.iteye.com/blog/482532
为基于spring的软件添加轻量级 规则引擎 ——http://webservices.ctocio.com.cn/tips/485/6151485.shtml
现实中的规则引擎:http://www.iteye.com/topic/100339 原文:http://www.infoq.com/articles/Rule-Engines
GitHub的研发之道:http://news.csdn.net/a/20110821/303368.html 。