1)爬虫在使用场景中的分类
1.通用爬虫
抓取的系统的重要组成部分,抓取的是一整张页面数据
2.聚焦爬虫
是建立在通用爬虫之上的,抓取的是页面特定中特定的局部内容
3.增量式爬虫
检测网站中的数据更新的情况,只会抓取网页中最新更新出来的数据
2)反爬机制
制定策略或技术手段,防止爬虫程序进行网站数据的爬取
3)反反爬策略
破解反爬机制,从而获取信息。
4)robots.txt协议
君子协议,规定了网站上哪些数据可以被爬虫,哪些不可以。
查看:网址后加/robots.txt
5)http协议
-概念:服务器与客户端进行数据交互的一种形式
-常用请求头信息:
--User-Agent:请求载体的身份标识
--Conne