前戏:
因为作者喜欢爬虫,所以总结了一下自己爬虫时一般遇到的难处,所以这些难处就是防爬虫的有效措施。
了解一般防爬虫的方法:
1.给令牌(类似我们拿快递,需要有身份验证的令牌,才给你拿快递)。
2.记录ip(同ip访问量速度太高等等)。
其他的还有很多。。。
今天我们模拟第一种机制:给令牌。
首先我们看看这个网页:
普通.png
其次看看页面的源码:
页面源码.png
一般爬虫遇到这种网页,肯定偷偷开心,因为只要爬整个网页就可以获取里面的图片资源等等。。。
接下来我们再来看看同样的网页,不同的源码:
源码2.png
这两个源码的实现的效果是一样的,为什么他们区别那么大(第一个基本各种标签都在界面上,第二个就两个div)。
没错,很多人猜到了,就是异步加载(Ajax)!
至于如何异步加载不是本篇文章的重点,接下来我们看看如何实现异步加载和令牌式来防爬虫。
接下来看看图片&#