一、爬虫基本概念 1. 定义 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。 2. 爬虫分类 (1)通用爬虫 - 爬取的是整张页面 (2)聚焦爬虫 - 根据指定的需求去网上爬取指定的内容。 二、反爬虫机制 1. robots.txt协议:指定的是门户中哪些数据可以供爬虫程序进行爬取和非爬取 2. User-Agent