一、爬行策略
深度优先爬行策略、广度优先爬行策略、大站优先策略、反链策略、OPIC策略、Pagerank策略。
二、网页分析算法
(1)基于用户行为的网页分析算法: 根据用户对网页的访问行为及其评价
(2)基于网络拓扑的网页分析算法: 结构关系
网页粒度的分析算法
网页块粒度的分析算法
基于网站粒度的分析算法
(3)基于网页内容的网页分析算法:网页的数据、文本等网页内容的特征
三、网络爬虫实现技术
一、爬行策略
深度优先爬行策略、广度优先爬行策略、大站优先策略、反链策略、OPIC策略、Pagerank策略。
二、网页分析算法
(1)基于用户行为的网页分析算法: 根据用户对网页的访问行为及其评价
(2)基于网络拓扑的网页分析算法: 结构关系
网页粒度的分析算法
网页块粒度的分析算法
基于网站粒度的分析算法
(3)基于网页内容的网页分析算法:网页的数据、文本等网页内容的特征
三、网络爬虫实现技术