立即学习:https://edu.csdn.net/course/play/24454/296785?utm_source=blogtoedu
爬虫场景分类:
- 通用爬虫
抓取重要组成部分(抓取一整张页面数据)
- 聚焦爬虫
建立在通用爬虫基础上进行(从一整张页面中特定的局部内容)
- 增量式爬虫
检测网站中数据的更新情况(只抓取网站中最新更新的数据)
爬虫的矛与盾
反爬机制
门户网站,通过制定相应的策略或技术,防止爬虫程序对网站的数据进行抓取
反反爬策略
爬虫程序可以通过制定相关的策略技术,破解门户网站中具备的反爬机制,从而可以获取门户网站的数据
反爬技术:
robots.txt 协议
君子协议。(明确规定可以被爬虫的数据)
allow 是可以爬取的数据;