常见反爬机制:
1、拒绝非浏览器的访问:可以检查请求头header中的User-agent、referer、cookies:
User-agent用来表示请求者的信息,可以搜集User-agent并保存,爬取过程中动态更换在User-agent,伪装成浏览器的形式
referer可以使用浏览器分析提取referer信息
需要登录才能操作的页面可以保留cookies,带着cookies信息登录
2、请求延时:在settings.py中设置DOWNLOAD_DELAY = n,n为延迟秒数,不要给别人的服务器造成压力。
3、代理的使用:
因此可以动态设置下User-agent及代理。 两个步骤:
在middlewares.py中自定义类
在settings.py中,启用该DOWNLOADER_MIDDLEWARES
1、动态设置user-agent
1)安装fake-useragent
进入python目录,通过语句pip3 install fake-useragent安装包
2)scrapy框架中设置动态user-agent