4.1 URL管理器 URL管理器管理待抓取的URL集合和已抓取的URL集合,防止重复抓取和循环抓取,如果两个URL相互指向,爬虫就会陷入死循化。 URL管理器支持的功能如下: 4.2 URL管理器的实现方法 内存,缓存数据库:选取set,因为set可以去除重复元素。由于缓存数据库的高性能,大型互联网公司将URL存储在缓存数据库中。