python爬京东口红评论数据分析_python爬行京东商品评论,Python,爬取

本文介绍如何使用Python爬取京东商品评论,特别是口红产品。通过分析网络请求,找到评论数据所在的json文件,利用requests和json库解析数据,并存储到文件中。程序会根据输入的结束页码爬取相应页数的评论,包括评论时间、用户名和评论内容。
摘要由CSDN通过智能技术生成

京东商城的页面不是静态页面,其评论信息存放于json文件中,由ajax控制,所以我们在浏览器上看到的网页源代码和用Python爬下来的是不一样的,所以我们真正要爬取的是评论数据所存放的json文件。

首先打开一个京东商品的评论页面,按F12。然后点击network之后再刷新一次页面,会显示如下信息。

c457f472c45f97d770b5f00146cbb125.png

在所有的json文件中找到那个存放评论的文件:

af63402a899510fe15b76ebe68e29241.png

观察其URL,其中有一个参数是page=0,大概这个参数表示第几页评论,那么我们就可以通过修改page参数来获取其他所有页的评论,分析完之后开始编写程序。

首先创造Request对象,然后使用urlopen函数将该文件爬取下来,通过Python中的json库来解析改文件,最后保存到文件中。代码如下:

import urllib.request

import json

import time

import xlwt

#======》爬取评论信息《=======#

end_page = int(input('请输入爬取的结束页码:'))

for i in range(0,end_page+1):

print('第%s页开始爬取------'%(i+1))

url = 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100004770259&score=0&sortType=5&page={}&pageSize=10&isShadowSku=0&fold=1 '

url = url.format(i)

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36',

'Referer': 'https://item.jd.com/100004770259.html'

}

request = urllib.request.Request(url=url,headers=headers)

content = urllib.request.urlopen(request).read().decode('gbk')

content = content.strip('fetchJSON_comment98vv385();')

obj = json.loads(content)

comments = obj['comments']

fp = open('京东.txt','a',encoding='utf8')

for comment in comments:

#评论时间

creationTime = comment['creationTime']

#评论人

nickname = comment['nickname']

#评论内容

contents = comment['content']

item = {

'评论时间': creationTime,

'用户': nickname,

'评论内容': contents,

}

string = str(item)

fp.write(string + '\n')

print('第%s页完成----------'%(i+1))

time.sleep(4)

fp.close()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值