简介
使用3台Linux虚拟机模拟出9台服务器搭建分布集群式新闻爬虫,用于爬取163娱乐新闻以及腾讯娱乐新闻。
思维导图
分布集群架构
部署方案
说明: 目前一共有四个子项目, 其中二个master各占用一台虚拟机(2台); 其中一个Slave用来解析新闻详情页, 部署一个两台的集群(2台);其中一个用来保存数据的, 可以部署三台,构建一个集群(3台), 一共为七台, 外加一台mysql和一台redis(2台), 共需要九台服务器
作用
作为solr搜索项目的基础数据
总结
一个基本爬虫项目的完成只要把握关键原则即可。
模拟客户端向服务器发送请求,将返回的数据按需求进行处理保存,并多次循环整个过程。