是否担心别人将你的博客文章全部爬下来?
是否担心高频率爬虫导致网站瘫痪?
别担心,现在有一个Python写的神器——crawlerdetect,帮助你检测爬虫,保障网站的正常运转。
1.准备
Windows环境下打开Cmd(开始—运行—CMD),苹果系统环境下请打开Terminal(command+空格输入Terminal),准备开始输入命令安装依赖。
在终端输入以下命令安装我们所需要的依赖模块:
pip install crawlerdetect
看到 Successfully installed xxx 则说明安装成功。
2.使用方法
它可以通过user-agent、headers等请求头识别爬虫或机器人。
因此,你可以传递两种参数。第一种,使用user-agent检测机器人:
from crawlerdetect import CrawlerDetect
crawler_detect = CrawlerDetect(user_agent='Mozilla/5.0 (iPhone; CPU iPhone OS 7_1 like Mac OS X) AppleWebKit (KHTML, like Gecko) Mobile (compatible; Yahoo Ad monitoring; https://help.yahoo.com/kb/yahoo-ad-monitoring-SLN24857.html)')
crawler_detec