获取评论信息的Json格式
引言
众所周知,某东的页面是懒加载
的,不仅仅是图片,经过对某东页面的解析,发现,甚至
他们的div等模块也是懒加载
!
那么我们用爬虫只是单纯的对他们的整个页面解析,筛选出我们想要的数据这样的爬虫模式就不是很好用了。
此时我们应该使用更好的爬虫手法。我这里展示一下HttpClient的方法爬取某东评论数据。
一:正文
寻找url请求头
随便以一个商品为例:
右键-检查
打开控制台,找到network/网络
:
点击商品评论
,找到页面相应的清秀
找到这一行,查看他的请求url信息,并复制我们所需要的信息
打开搜索引擎,粘贴进去,我们会发现这个是一个json数据格式
url
:https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100005324042
&score=0&sortType=5&page=0&pageSize=10
其中:
productId
:商品id
score
:评分
page
:当前页面
pageSize
:页面评论size
商品页面url:https://item.jd.com/100005324042
.html
thus,找亮点,总结规律,你会发现新大陆
爬取数据
Jsoup爬虫工具类