什么是爬虫?
网络时代,有一种网络程序,俗称网络机器人。它可以按照一定的规则代替人们自动地在互联网中进行数据信息的采集与整理,这就是所谓的【爬虫】。
什么是反爬虫?
反爬虫就是和爬虫抗衡。减少被爬取的次数。其实就是网站为了维护自己的核心安全而采取的抑制爬虫的手段和措施。
说得简单一点,反步兵就是机关枪、反坦克就是火箭炮。反爬虫那就是杀虫剂喽!
反爬虫的手段其实有很多,今天就给大家分享几个我在爬虫过程中遇到的爬虫和解决方法,希望对大家能有所帮助!
header
这是关于反爬最常遇到的也是最为容易解决的一个问题,先上图
当我们没有加入header的时候,服务器响应给我们的是一个200的正常的return code。但是就是没有获取到后台传过来的数据。为什么我们用浏览器看的时候能获取到数据,用爬虫爬数据的时候就获取不到呢?
那是因为我们没有在获取的header里面加入cookie、refer和user-agent。但是这些参数的具体含义是什么呢,为什么有了它就可以获取到数据呢?
cookie - 侧重于用户的类型,这里具体指的就是登录的用户呢还是游客
refer - 指的是用户从哪个页面发出网络的访问和数据的请求
user-agent 指的是访问后台服务器的是哪一个浏览器
所以在模拟请求的时候,先在headers中加入 User-Agent,如果还不可以请求再尝试加入 Referer,还无法访问,最后再加入 Cookie。