1. 什么叫爬虫?
通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。
2. 爬虫在使用场景的分类:
通用爬虫:搜索引擎抓取系统的重要组成部分。抓取的互联网的一整张页面。
聚焦爬虫:抓取的页面的特定局部内容。
增量式爬虫:检测网站中数据更新的情况
反爬机制:可以制定相应的策略阻止爬虫程序进行网站数据的爬取。
反反爬策略:爬虫程序可以制定相关的策略或技术手段来获取门户网站中的反爬机制,从而可以获取数据。
第一种反爬机制:
robots.txt协议:君子协议,明确规定哪些数据可以爬取,