常见网络爬虫的类型

1.通用网络爬虫(General Purpose Web Crawler)

  •  爬取目标资源在全互联网中,爬取目标数据巨大。对爬取性能要求非常高。应用于大型搜索引擎中,有非常高的应用价值。
  • 通用网络爬虫的基本构成:初始URL集合,URL队列,页面爬行模块,页面分析模块,页面数据库,链接过滤模块等构成。
  • 通用网络爬虫的爬行策略:主要有深度优先爬行策略和广度优先爬行策略。

2.聚焦网络爬虫(Focused Crawler)

  • 将爬取目标定位在与主题相关的页面中
  • 主要应用在对特定信息的爬取中,主要为某一类特定的人群提供服务
  • 聚焦网络爬虫的基本构成:初始URL,URL队列,页面爬行模块,页面分析模块,页面数据库,连接过滤模块,内容评价模块,链接评价模块等构成
  • 聚焦网络爬虫的爬行策略:

基于内容评价的爬行策略

基于链接评价的爬行策略

基于增强学习的爬行策略

基于语境图的爬行策略

关于聚焦网络爬虫具体的爬行策略

3.增量式网络爬虫(Incremental Web Crawler)

  • 增量式更新指的是在更新的时候只更新改变的地方,而未改变的地方则不更新
  • 只爬取内容发生变化的网页或者新产生的网页,
  • 一定程度上能保证所爬取的网页,尽可能是新网页

4.深层网络爬虫(Deep Web Crawler)

  • 表层网页:不需要提交表单,使用静态的链接就能够到达的静态网页​​​​​​​​​​​​​​
  • 深层网页:隐藏在表单后面,不能通过静态链接直接获得,是需要提交一定的关键词之后才能够获取得到的网页。
  • 深层网络爬虫最重要的部分即为表单填写部分
  • 深层网络爬虫的基本构成:URL列表,LVS列表(LVS指的是标签/数值集合,即填充表单的数据源)爬行控制器,解析器,LVS控制器,表单分析器,表单处理器,响应分析器等
  • 深层网络爬虫表单填写有两种类型:
  1. 基于领域知识的表单填写(建立一个填写表单的关键词库,在需要的时候,根据语义分析选择对应的关键词进行填写)
  2. 基于网页结构分析的表单填写(一般是领域只是有限的情况下使用,这种方式会根据网页结构进行分析,并自动的进行表单填写)

 

 

 

  • 2
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值