最近在使用爬虫爬取数据的时候,发现很多网站为了保护版权都加入了防盗链。具体表现为:在本地访问图片正常,url访问也可以,但是img的src访出现403。在网上查阅了一些资料后发现了解决问题的办法。可以在img标签中加上
referrer="no-referrer"
也可以在html的header头部加入
<meta name="referrer" content="no-referrer" />
出现403的状态其实是因为http请求的header中有一个referrer用来标识当前请求来自那个网站,这个值是可以省略但是不能修改的。这样服务器可以通过这个值判断是不是本站访问,如果不是就做相应处理。
这里有一篇关于referrer的文章。有些东西我们只用知道错误的原因,然后找到对应的解决办法即可,技术这个东西想面面俱到很难。
PS:爬取第三方网站的资源,一定要标识转载来源。