常见网络爬虫的类型

最新推荐文章于 2023-07-14 10:38:51 发布

Py菜菜鸟

最新推荐文章于 2023-07-14 10:38:51 发布

阅读量1.7w

点赞数 2

分类专栏： Crawler 文章标签： Crawler python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35808064/article/details/83053666

版权

Crawler 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.通用网络爬虫（General Purpose Web Crawler）

爬取目标资源在全互联网中，爬取目标数据巨大。对爬取性能要求非常高。应用于大型搜索引擎中，有非常高的应用价值。
通用网络爬虫的基本构成：初始URL集合，URL队列，页面爬行模块，页面分析模块，页面数据库，链接过滤模块等构成。
通用网络爬虫的爬行策略：主要有深度优先爬行策略和广度优先爬行策略。

2.聚焦网络爬虫（Focused Crawler）

将爬取目标定位在与主题相关的页面中
主要应用在对特定信息的爬取中，主要为某一类特定的人群提供服务
聚焦网络爬虫的基本构成：初始URL,URL队列，页面爬行模块，页面分析模块，页面数据库，连接过滤模块，内容评价模块，链接评价模块等构成
聚焦网络爬虫的爬行策略：

基于内容评价的爬行策略

基于链接评价的爬行策略

基于增强学习的爬行策略

基于语境图的爬行策略

关于聚焦网络爬虫具体的爬行策略

3.增量式网络爬虫（Incremental Web Crawler）

增量式更新指的是在更新的时候只更新改变的地方，而未改变的地方则不更新
只爬取内容发生变化的网页或者新产生的网页，
一定程度上能保证所爬取的网页，尽可能是新网页

4.深层网络爬虫（Deep Web Crawler）

表层网页：不需要提交表单，使用静态的链接就能够到达的静态网页
深层网页：隐藏在表单后面，不能通过静态链接直接获得，是需要提交一定的关键词之后才能够获取得到的网页。
深层网络爬虫最重要的部分即为表单填写部分
深层网络爬虫的基本构成：URL列表，LVS列表（LVS指的是标签/数值集合，即填充表单的数据源）爬行控制器，解析器，LVS控制器，表单分析器，表单处理器，响应分析器等
深层网络爬虫表单填写有两种类型：

基于领域知识的表单填写（建立一个填写表单的关键词库，在需要的时候，根据语义分析选择对应的关键词进行填写）
基于网页结构分析的表单填写（一般是领域只是有限的情况下使用，这种方式会根据网页结构进行分析，并自动的进行表单填写）

关注

2
点赞
踩
34

收藏

觉得还不错? 一键收藏
1
评论
常见网络爬虫的类型

1.通用网络爬虫（General Purpose Web Crawler）爬取目标资源在全互联网中，爬取目标数据巨大。对爬取性能要求非常高。应用于大型搜索引擎中，有非常高的应用价值。通用网络爬虫的基本构成：初始URL集合，URL队列，页面爬行模块，页面分析模块，页面数据库，链接过滤模块等构成。通用网络爬虫的爬行策略：主要有深度优先爬行策略和广度优先爬行策略。2.聚焦网络爬虫（Foc...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。