1.爬虫基本认识 - python爬虫基础(一)

本文介绍了网络爬虫的基本概念,包括通用爬虫、聚焦爬虫、增量式网络爬虫和深层网络爬虫的分类,并探讨了爬虫的合法性、robots协议以及网站的反爬虫策略。爬虫在遵守robots协议和合法性的前提下,需要应对网站的各种反爬手段,制定有效的爬取策略。
摘要由CSDN通过智能技术生成

目录

1.认识爬虫前以一张图了解浏览网页的基本流程:

2.网络爬虫概念:

3.爬虫分类:

①通用爬虫:(百度搜索等)

②聚焦爬虫

③增量式网络爬虫:

④深层网络爬虫:

4. 爬虫的合法性

①概念

 ②robots协议

③访问网站robots协议(君子协定)

5.网站反爬虫的目的与手段  :

6.爬取策略制定


1.认识爬虫前以一张图了解浏览网页的基本流程:

2.网络爬虫概念:

也被称为网络蜘蛛、网络机器人,是一个自动下载网页的计算机程序或自动化脚本。

网络爬虫就像一只蜘蛛一样在互联网上沿着URL的丝线爬行,下载每一个URL所指向的网页,分析页面内容

 

3.爬虫分类:

①通用爬虫:(百度搜索等)

通用网络爬虫又称为全网爬虫,其爬行对象由一批种子URL扩充至整个Web,该类爬虫比较适合为搜索引擎
搜索广泛的主题,主要由搜索引擎或大型Web服务提供商使用。
--- 深度优先策略: 按照深度由低到高的顺序,依次访问下一级网页链接,直到无法再深入为止。
---  广度优先策略: 按照网页内容目录层次的深浅来爬行,优先爬取较浅层次的页面。当同一层中的页面全部
                             爬行完毕后,爬虫再深入下一层。

②聚焦爬虫

又被称作主题网络爬虫,其最大的特点是只选择性地爬行与预设的主题相关的页面。

--- 基于内容评价的爬行策略:该种策略将用户输入的查询词作为主题,包含查询词的页面被视为与主题相 关的页面。

--- 基于链接结构评价的爬行策略:该种策略将包含很多结构信息的半结构化文档Web页面用来评价链接的 重要性,其中一种广                                                           泛使用的算法为PageRank算法。

--- 基于增强学习的爬行策略:该种策略将增强学习引入聚焦爬虫,利用贝叶斯分类器对超链接进行分类,计 算出每个链接的重                                                    要性,按照重要性决定链接的访问顺序。

--- 基于语境图的爬行策略:该种策略通过建立语境图学习网页之间的相关度,计算当前页面到相关页面的距 离,距离越近的页                                                面中的链接优先访问。 

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值