问题一:
在进行爬取的测试中显示
<script>window.location.href='https://passport.jd.com/uc/login'</script>
最后解决的方法是在浏览器按F12进行查看在请求头添加这个内容
user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36
可以自行在浏览器进行查看
这样就解决了爬取显示要登录的问题
问题二
京东的页面现在的sku和spu是一致的,如果直接获取spu的话,会直接显示为" "
使用debug进行查看时
所有进行获取的时候,直接写成data-sku
就可以啦
问题三
在进行获取图片时获取不到
我们这里看到的是src
然后进行代码测试
String picUrl = skuEle.select("img[data-sku]").first().attr("src");
获取不到…
使用bebug进行查看
发现根本不是src,所有需要在哪个获取哪里进行更改
String picUrl = skuEle.select("img[data-sku]").first().attr("data-lazy-img");
问题四
商品图片下载不了
一直报错
看到了关键字Target host is not specified
然后通过debug找到了图片传入的url没有https:
在前面加入就可以解决了
问题五
在爬取一段时间后,进行报错Expected scheme-specific part at index 6: https:
最后通过debug发现,当爬取一会后,传入的地址会为空 及""
进行健壮性判断就可以啦