基本概念 爬虫 - 自动获取网站数据的程序,关键是批量的获取反爬虫 - 使用技术手段防止爬虫程序的方法误伤 - 反爬技术将普通用户识别为爬虫,如果误伤过高,效果再好也不能用成本 - 反爬虫需要的人力和机器成本拦截 - 成功拦截爬虫,一般拦截率越高,误伤率越高 反爬虫的目的 初级爬虫 - 简单粗暴,不管服务器的压力,容易弄挂网站数据保护 -失控的爬虫 - 由于某些情况下,忘记或者无法关闭的爬虫商业竞争对手 爬虫与反爬虫的对抗过程 下图清晰的反映了爬虫与反爬虫的对抗过程