版权声明:本文为博主原创文章,未经博主允许不得转载。
系列教程:
四节课过去了,咱们在爬虫界也都算见过世面的人,现在再来一些什么ajax加载之类的小鱼小虾应该不在话下了,即使是淘宝这种大量的ajax,我们 祭上我们的核武器,也轻松应对了,这一课主要是来看看除了技术上的页面处理外,我们还会遇上更棘手的问题,就是反爬虫,当然现在有各种各样的反爬虫,今天 就先介绍最简单的一种:限制IP。
今天咱们的对手依然是业界大佬,马云最忌惮的男人,宅男心中爱恨交错的对象 - JD.COM
也不用我安利,特别是程序员,有几个没给京东送过钱的。废话不多说,先上工具:
1、神箭手云爬虫,
2、Chrome浏览器
3、Chrome的插件XpathHelper 不知道是干嘛的同学请移步第一课
打开网站瞅一眼:
好了,相信我,截这张图绝对不是在虐你们这些单身狗。我们就是科学的研究一下这个页面,没啥特别的:大厂风,硬仗准备。
先来挑一个分类吧,这次挑一个大家都熟悉的互联网书类:
http://search.jd.com/Search?keyword=Python&enc=utf-8&book=y&wq=Python&pvid=33xo9lni.p4a1qb
你们的最爱,python从入门到放弃的全部资料。
和前面几节课类似的分