最近爬了一些壁纸网站的壁纸,这里总结下如何用Jsoup去爬图片。
首先获取图片网站的地址,用F12看下网站里面的图片是放在哪个地方的。
通过f12就可以看到图片是放在div的标签下面的, 然后获取图片地址打开新的页面看看图片的质量如何,发现这张图片的质量不太行,像素也很小。
才44k,分辨率也才360x640,这达不到我想要的效果,我就点开单独的页面网站查看原图的大小,发现分辨率可以达到1440X2560,这个给手机用就完美了。
这时候我就对比下原图跟爬到的图片的地址链接,发现了一个小秘密。
原来我们可以替换下图片里面 的360_360为source就可以获取到图片的原图。这时候在用postman打开图片网站,分析下网站需要哪些headers的信息,经过我的测试,发下只需要下面这几个信息就可以拿到网站的页面代码。
这时候我们都可以知道网站的headers的信息需要什么,图片的链接我们也可以获取到,下面贴下代码。
用这段代码我就实现了爬完这个网站的全部1440X2560的图片,因为我是要给手机用的,你们如果要爬其它的话就换 下地址就好了。再下载图片的时候报错403的话,就添加下面的代码就可以解决。
好了,用以上的方法去分析跟处理就能取到我要的图片了。
希望对你们有用。谢谢大家支持。