又到了吃车厘子的季节。
冬季,中国市面上的车厘子主要来自南半球的智利、新西兰和澳大利亚等地,其中中国更是智利最大的车厘子出口国,出国占比达百分之90以上。。
远隔重洋、长途跋涉而来的车厘子的消费价格里包括了运输费用、冷藏费用等额外费用,自然冬季车厘子对于夏季的车厘子价格上要高出不少。另外,货以稀为贵,中国冬季水果相对于夏季稀缺,惹众人垂涎的车厘子价格自然水涨船高。
但是这些因素丝毫不能影响中国吃货对车厘子的钟爱。2021车厘子销量暴涨32倍,中国吃货凭实力养活50万智利人
今天我们那就来某东网看看销量第一10w+的车厘子到底有多受欢迎?
1 需求分析
我们本次获取的目标有用户昵称、产品评分、产品类型、评论时间、评论点赞数和回复数还有具体评论内容等七项内容
2 网页分析
从图中我们要获取的内容都在当前页面中,我们使用浏览器打开格式如下:
这是一个json格式的数据集。
3 发送请求
分析完了我们上代码,使用requests发送请求获取网页响应
url = f'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=20180186520&score=0&sortType=5&page={page}&pageSize=10&isShadowSku=0&rid=0&fold=1'
headers = {
'Cookie': xxxxxx',
'Referer': 'https://item.jd.com/',
'User-Agent': 'xxxxxx'
}
# 获取响应
resp = requests.get(url, headers=headers)
结果如下,我们可以看到打印出来的结果不是一个标准的json格式数据集
所以我们先要构造标准的json格式
便于我们后续对数据内容进行提取。
构造方法如下:
json_data = json.loads(resp.text[20:-2])
然后我们获取我们所要的内容,成功打印如下:
for cmts in json_data['comments']:
# 昵称
nickname = cmts['nickname']
# 评分
score = cmts[&#