第三章:《网络爬虫原理和实现技术》
爬虫实现原理详解
通用网络爬虫
聚焦网络爬虫:
爬虫策略:
- 深度优先爬虫策略:
- 广度优先爬虫策略:
- 大站式优先爬虫策略:(网页数量比较多的)
- 反链式爬虫策略:(网站被引用的次数越多越大,越优先)
网页更新策略:
为什么会有网站跟新策略?
因为有的网站会不断跟新,我们要定时爬取网站才可以保证数据的即时性,所以我们要不断的爬取,故有网站的更新策略。
- 用户体验策略(根据用户搜索的排名,更新网站数量)
- 历史数据更新策略(根据网站的历史数据进行配置)
- 聚类分析策略(根据网页进行分类分析)
网页分析算法:
- 基于用户行为的网页分析算法
- 基于网络扑拓的网页分析算法
1. 网页粒度分析算法
- 网页块粒度分析算法
- 网站粒度的分析算法
- 基于网络内容的网络分析算法
身份识别:
网站管理员通过爬虫告知的身份进行识别,这个过程称为身份识别:
robots协议:
网络爬虫技术实现:
python
go
java
c++
php
Node.js