堆糖上面的图片一直是我打算爬一下的,但说着说着就忘了这么一回事-_-||
今天正好想起来,就麻利儿的把这件事给搞定了。
话不多说,先上成果。
接着说思路,代码在最后面。
最开始,我以为堆糖是那种一页一页显示图片的,就下意识地按照其他方法去爬了,结果写完才发现堆糖的结果显示是需要下拉刷新的,所以这里就有两份不同的代码。
为了以后自己查看自己的文章方便,这里就不记述静态爬取的过程了。
在这里,我以“古风”关键词为例,把爬虫的过程解释一下。
一.分析url
因为已经知道是动态拉取的,所以直接在堆糖的搜索界面上右键—查看元素—网络—XHR,停在这个页面后,就下拉鼠标,直到新一页加载出来,此时我们可以获得一条新请求。
将消息头里的请求网址粘贴到记事本。继续下拉,查看其它请求网址。
分析了一下请求网址,可以看出,每次不同的地方就在最后的两个&处。
其中第一个start=,我们可以认为是每次请求后已获得的图片的数量,而后面的那个,我也不知道是什么.....
但可以看出,每次请求,它的值都是加一的。
把第一个请求网址在浏览器打开,可以看到浏览器自动以json文件打开。
在这张截图里,我们正好可以看到三条链接,而且三条链接都是不同属性。
分析一下,这里的0,应该是指保存到的专辑封面。
avatar:阿凡达,化身。也就是用户的头像(顺便