1、爬虫的定义 网络爬虫是一种按照一定的规则自动爬取爬取网络信息的程序或者脚本。简单来说,网络爬虫就是就是根据一定的算法实现编程开发,主要通过URL实现数据的抓取和发掘。 爬虫的类型和原理 通用爬虫又称全网爬虫,爬行对象从一些初始URL扩充到整个网站。其实现的原理如图: