前言
前天看到一个爬取了知乎50多万评论的帖子, 羡慕的同时也想自己来尝试一下。看看能不能获取一些有价值的信息。
必备知识点
下面简单的来谈谈我对常见的防爬虫的一些技巧的理解。
headers
现在很多服务器都对爬虫进行了限制,有一个很通用的处理就是检测“客户端”的headers。通过这个简单的判断就可以判断出客户端是爬虫程序还是真实的用户。(虽然这一招在Python中可以很轻松的解决)。
Referer
referer字段很实用,一方面可以用于站内数据的防盗链。比如我们经常遇到的在别处复制的图片链接,粘到我们的博客中出现了“被和谐”的字样。
这就是referer起到的作用,服务器在接收到一个请求的时候先判断Referer是否为本站的地址。如果是的话就返回正确的资源;如果不是,就返回给客户端预先准备好的“警示”资源。