简述
爬虫工作的模式主要有:C/S模式、B/S模式和混合模式。
一 C/S模式
通过本地客户端软件(Client)爬取目标的内容,分析筛选有效数据,保存至数据库服务器(Server)。客户端定制具有特定的应用软件。客户端软件承担爬虫的大部分工作,包括从前期的爬取到后期的清洗。数据库服务器负责检验数据,确保数据的有效性、完整性和一致性。为了保证爬取工作的可管理审计,需要保留一定的源数据特征。C/S模式可以灵活应对各种状况,进行及时有针对性的响应措施。
二 B/S模式
使用浏览器(Browser)联接远程服务器(Server),执行目标内容的分析、筛选、清洗以及保存至数据库任务。客户端使用既有浏览器作为用户操作界面,无须另外开发应用软件。远程服务器是爬虫任务的主要容器,由爬虫服务器和数据库服务器组成。采用适当多重措施,B/S模式在模拟自然访问对象方面,具有得天独厚的优势。
三 混合模式
C/S和B/S模式混合工作。混合模式通过客户端应用软件和浏览器协作的方式,联机远程服务器执行爬取任务。同时兼顾两者的优点,做到优劣互补。