1. 网络爬虫定义与作用
定义:网络爬虫(Web Crawler),也称为网页蜘蛛(Spider)或网络机器人,是一种按照特定规则自动抓取万维网信息的程序或脚本。
经典应用案例:Google、百度、Bing(必应)。
2. 网络爬虫分类
网络爬虫按结构和实现技术分为四类,实际系统常结合多种技术:
a.通用网络爬虫(General Purpose Web Crawler):
原理:爬行对象从种子URL扩展到整个Web,用于门户搜索引擎(如百度)。
结构:包括页面爬行模块、页面分析模块、链接过滤模块、页面数据库、URL队列、初始 URL集合。
爬行策略:深度优先策略、广度优先策略。
1028

被折叠的 条评论
为什么被折叠?



