crawlzilla 介绍:http://code.google.com/p/crawlzilla/wiki/SystemInstall
安装:
1、sun-java6
sudo add-apt-repository "deb http://us.archive.ubuntu.com/ubuntu/ hardy multiverse"
sudo apt-get update
sudo apt-get install sun-java6-jdk
2、解决 lang 的问题
http://mylovejsj.blog.163.com/blog/static/3867397520110711146668/
3、解决搜索关键词结果页空白的问题
定时重启 tomcat
在 crawler 用户终端中执行 crontab -e