1,爬虫分类
开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?上面说的爬虫,基本可以分3类:
(1)分布式爬虫:Nutch
现在比较流行的分布式爬虫,是Apache的Nutch,Nutch是为搜索引擎设计的爬虫
换搭建:vmware,centos7,jdk,ant,nutch,hbase,solr
vmware安装
centos7安装
jdk安装:https://jingyan.baidu.com/article/ab0b56308966acc15afa7d18.html
ant 安装: https://www.cnblogs.com/sell/archive/2013/07/24/3210198.html
https://jingyan.baidu.com/article/e2284b2b45d193e2e6118dc6.html
nutch 安装: http://blog.csdn.net/gobitan/article/details/13916981
http://blog.csdn.net/lzjzy520/article/details/41596893
centos7问题:主机可以ping通虚拟机,但是telnet ip 端口 不通
linux本身是否支持telenet:https://www.cnblogs.com/lixuwu/p/6102444.html
防火墙设置tcp端口:http://www.jianshu.com/p/c9c24b3a1c53
nutch命令:http://blog.csdn.net/jediael_lu/article/details/42058553
solr后台使用说明:https://www.cnblogs.com/arli/p/6837931.html
(2)JAVA爬虫:Crawler4j、WebMagic、WebCollector
(3)非JAVA爬虫:scrapy(基于Python语言开发)
1.1,分布式爬虫
介绍:https://www.cnblogs.com/mafeng/p/5651323.html
WebMagic