爬虫基本概念
1、什么是爬虫?
通过编写程序,让其模拟浏览器上网,然后在互联网页面中抓取数据的过程。关键词模拟:浏览器就是一个纯天然最原始的爬虫工具抓取:抓取一整张页面的全部或局部数据2、爬虫的分类
(1) 通用爬虫:爬取一整张页面的数据。
(2) 聚焦爬虫:爬取局部的数据。
(3)增量式爬虫:监测数据更新情况,爬取更新出来的数据。
(4)分布式爬虫:提高爬取效率的终极武器。
3、反爬机制是什么? 作用到门户网站中,制定相关的机制或措施阻止爬虫程序爬取数据。
4、反反爬策略是什么? 作用在爬虫程序当中,我们可以通过制定相关的策略破解反爬机制,从而爬取数据。