我也是好久没有整活了呀铁子们,这次换了个网站爬取图片呀
别问为什么后续得图片都打码了,不打码过不了审得啊哥哥
http://www.abwzhuan.com/
首先咱们来分析目标网站,然后发现只要呼出调试窗口就会无限debugger 循环,这个不好分析网站呀,只要点击这个蓝色的箭头就会无限跳转到这里然后也不加载数据了
这个处理方法嘛我们先试验第一种在debugger这一行左边数字哪里右击选择箭头所指的那个,意思就是永远不在这里断点,经过测试点击之后我们在点击蓝色的箭头就可以正常调试网站了,不会在出现
第二种方法嘛,点击这个按钮之后会弹出一个输入框,在输入框里面输入false回车之后我们在点击蓝色的箭头也是可以正常调试网站的
以上两种方法吧不能适用所有网站,如果遇到别的网站无法适用的话,我们就用Fiddler抓包然后重写文件在返回给浏览器,这个过几天我会单独出一篇文章来讲如何抓包重写
到这里就没有什么大问题了开始正常分析网站,可以看到图片详情页都是在
//div[@class="placeholder"]/a/@href 这个里面的
用xpath验证了一下没有问题哈
那么这一页爬取完,我要爬取下一页怎么办?可以看到需要点击这个按钮,而且点击之后网址并无变化,这也是一个前后端交互的网站
我们来分析一下 每次加载会多一个这样的文件 只有page/{}这里的数字有变化,