文章首发于慕课网
爬虫定义
网络爬虫(英语:web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。——维基百科
万物都有两面性。而爬虫作为一种计算机技术就决定了它的中立性,因此爬虫本身在法律上并不被禁止,但是利用爬虫技术获取数据这一行为是具有违法甚至是犯罪的风险的。所谓具体问题具体分析,正如水果刀本身在法律上并不被禁止使用,但是用来捅人,就不被法律所容忍了。
爬虫分类:
主要分为以下三类:
-
小规模,数据量小,爬取速度不敏感;对于这类网络爬虫我们可以使用
Requests
库来实现,主要用于爬取网页; -
中规模,数据规模较大,爬取速度敏感;对于这类网络爬虫我们可以使用
Scrapy
库来实现,主要用于爬取网站或系列网站; -
大规模,搜索引擎,爬取速度关键;此时需要定制开发,主要用于爬取全网,一般是建立全网搜索引擎,如百度、Google搜索等。
在这三种中,我们最为常见的是第一种,大多数均是小规模的爬取网页的爬虫。