爬虫的原理及过程

最新推荐文章于 2024-01-19 15:19:09 发布

十三t

最新推荐文章于 2024-01-19 15:19:09 发布

阅读量1.4k

点赞数 1

分类专栏：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42359085/article/details/104096504

版权

笔记专栏收录该内容

20 篇文章 0 订阅

订阅专栏

通用网络爬虫
一、实现过程如下图所示
通用网络爬虫的实现过程
二、实现原理如下

获取初始的URL。初始的URL地址可以人为的指定，也可以由用户指定的某几个或者某个初始爬取网页决定。
根据初始的URL爬取页面并获得新的URL。爬取当前初始的URL地址中的网页信息后，解析网页信息内容将网页信息内容存储到原始数据库中，并且在当前获得的网页信息里面发现新的URL地址，存放到一个URL队列里面。
从URL队列中读取新的URL，从而获得新的网页信息，同时在新网页中获取新的URL，并重复上述的爬取过程。
满足爬虫系统设置的停止条件时，停止爬取。

聚焦网络爬虫
一、实现过程程如下图所示
聚焦爬虫
二、实现原理如下

制定爬取的方案。
设定初始的URL。
根据初始的URL抓取页面，并获得新的URL。
从新的URL中过滤掉与需求无关的URL，将过滤后URL放到URL队列中。
在URL队列中，根据搜索算法确定URL的优先级，并确定下一步要爬取的URL地址。
得到新的URL，将新的URL重现上述爬取过程。
满足爬虫系统设置的停止条件或者无法获取新的URL地址时，停止爬取。

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
爬虫的原理及过程

通用网络爬虫一、实现过程如下图所示二、实现原理如下获取初始的URL。初始的URL地址可以人为的指定，也可以由用户指定的某几个或者某个初始爬取网页决定。根据初始的URL爬取页面并获得新的URL。爬取当前初始的URL地址中的网页信息后，解析网页信息内容将网页信息内容存储到原始数据库中，并且在当前获得的网页信息里面发现新的URL地址，存放到一个URL队列里面。从URL队列中读取新的URL，...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。