最近在研究爬虫的实现,看了几个代码,感觉在爬虫的设计中有几点很重要: 1)网页的获取 2)网页中URL的提取 3)URL的合法性校验 4)URL是否已经存在 5)网页的深度的判断 6)爬去策略?深度优先和广度优先