9.1 爬虫及爬行方式

最新推荐文章于 2023-09-26 09:33:02 发布

gzf6

最新推荐文章于 2023-09-26 09:33:02 发布

阅读量599

点赞数

分类专栏： HTTP 9. Web 机器人

本文链接：https://blog.csdn.net/gogzf/article/details/78329903

版权

Web 机器人(Web robot)：自活跃(self-animating)用户代理，是能够在无需人类干预的情况下自动进行一系列 Web 事务处理的软件程序。
很多机器人会从一个 Web 站点逛到另一个 Web 站点，获取内容，跟踪超链，并对它们找到的数据进行处理。根据这些机器人自动探查 Web 站点的方式，人们为它们起了一些各具特色的名字，比如“爬虫”、“蜘蛛”、“蠕虫”以及“机器人”等，就好像它们都有自己的头脑一样。
Web 爬虫：是一种机器人，它们会递归地对各种信息性 Web 站点进行遍历，获取第一个 Web 页面，然后获取那个页面指向的所有 Web 页面，然后是那些页面指向的所有 Web 页面，依此类推。递归地追踪这些 Web 链接的机器人会沿着 HTML 超链创建的网络“爬行”，所以将其称为爬虫(crawler)或蜘蛛(spider)。
因特网搜索引擎使用爬虫在 Web 上游荡，并把它们碰到的文档全部拉回来。然后对这些文档进行处理，形成一个可搜索的数据库，以便用户查找包含了特定单词的文档。

爬虫在 Web 上移动时，会不停地对 HTML 页面进行解析。它要对所解析的每个页面上的 URL 链接进行分析，并将这些链接添加到需要爬行的页面列表中去。随着爬虫的前进，当其发现需要探查的新链接时，这个列表常常会迅速地扩张，直到已经对 Web 空间进行了彻底的探查为止，这时爬虫就会到达一个不再发现新链接的状态了。
爬虫要通过简单的 HTML 解析，将这些链接提取出来，并将相对 URL 转换为绝对形式。转换方式见2.3 URL 快捷方式

关注