聚焦网络爬虫原理

最新推荐文章于 2023-05-16 19:22:10 发布

Py菜菜鸟

最新推荐文章于 2023-05-16 19:22:10 发布

阅读量7.1k

点赞数 1

分类专栏： Crawler 文章标签： Crawler python

3 篇文章 0 订阅

订阅专栏

对爬取目标的定义和描述。在聚焦网络爬虫中，我们首先要依据爬取需求定义好该聚焦网络爬虫爬取的目标，以及进行相关的描述
获取初始的URL
根据初始的URL爬取网页，并获得新的URL
从新的URL中过滤掉与爬取目标无关的链接。因为聚焦网络爬虫对网页的抓取是有目的性，所以与目标无关的网页将会被过滤掉。同时，也需要将已爬取的URL地址存放到一个列表中，用于去重和判断爬取的进程
将过滤后的链接放到URL队列中
从URL队列中，根据搜索算法，确当URL的优先级，并确定下一步要抓取的URL地址。在通用网络爬虫中，下一步爬取那些URL，是不太重要的，但是在聚焦网络爬虫中，由于其具有目的性，故而下一步爬取哪些URL地址相对来说是比较重要的。对于聚焦网络爬虫来说，不同的爬取顺序，可能导致爬虫的执行效率不同，所以，我们需要依据搜索策略来确定下一步需要爬取那些URL地址
从下一步要爬取的URL地址中，读取新的URL，然后依据新的URL地址爬取网页，并重复上述爬取的过程
满足系统中设置的停止条件时，或无法获取新的URL地址时，停止爬行

关注

专栏目录