【Python】【爬虫】，用Python爬取京东评论

最新推荐文章于 2024-05-12 12:52:39 发布

xpanxcom

最新推荐文章于 2024-05-12 12:52:39 发布

阅读量3.2k

点赞数 7

分类专栏： Python

Python 专栏收录该内容

7 篇文章 1 订阅

订阅专栏

最近想换电脑，又有点不确定买哪一款。所以决定爬取京东上电脑评论，做个参考，并把最终结果绘制成词云图。

一、先来看下三款电脑评价的词云图

1 用Python爬取京东自营ThinkPad T490s的评论绘制成词云图

2 用Python爬取京东自营MacBook Pro的评论绘制成词云图

3 用Python爬取京东自营DELL G7 i7-9750H的评论绘制成词云图

可以发现这三款电脑的公共特点是轻薄、速度，ThinkPad和MacBook中出现办公字样，戴尔中出现了游戏字样。整体来看这三款电脑的评价都还可以，不错、喜欢、满意等字样还是比较多。

注：T490s、MacBook、DELL_G7不是评论中的主要词，是我为了看起来直观故意放进去的。

下文以爬取Thinkpad T490s笔记本电脑的评论为例，给大家展示如何爬取京东评论并做成词云图。

二、如何爬取京东评论

由于京东使用动态网址，所以代码中的headers之类，要根据所要爬取的内容查找，以下是获取这些内容的具体步骤：

step1：浏览器(一般用火狐和Google我用的360)中打开京东 -> 搜索T490s
step2：选择你喜欢的型号进入链接
step3：按键盘F12 -> ctrl+r -> 在Filter里搜索comment
step4：点击商品评价 -> 点击productPageComments.action -> 到Headers中找到代码所需的参数

三、爬虫代码解析

1 用Python中的Requests库获取网站评论信息

import requests  as re  #导入requests模块
#把Headers中的Requests URL赋值给urlurl = "https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100004380824&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1"#把Headers中对应关键词后面的内容填入headers中headers = {'User-Agent':'User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',            'Request Method':'Get',            'callback':'fetchJSON_comment98'}#获取url中的所有信息req = re.get(url, timeout=30, headers=headers)#req = re.get(url)

代码解析：

url = ：待爬取网页的url链接，相当于指定爬取评论的路径，本文对应填入上文step4中标注的Requests URL值。

headers = ：待爬取网页的首部信息，把上文step4中标注的Headers中关键词后面的内容对应填入即可。

req =：用get方法获取待爬网页的所有信息。

注1：有些网站访问时必须带有浏览器等信息，如果不传入headers就会报错，所以本例中加入了头部的一些信息。我试了一下该链接不加首部信息也可以正常运行，和加了首部信息得到的结果完全一致。

注2：如果对Requests库不了解，可以参见本公众号中文章【Python】【爬虫】Requests库详解

2 用Python中的json库把评论信息解析成规范格式

import json  #导入json模块
#先把不用的内容去掉，再用json库解析它，得到我们想要的内容jd=json.loads(req.text.lstrip("fetchJSON_comme rstrip nt98vv375(").rstrip(");"))#打印评论信息j=1for i in jd['comments']:    print(str(j)+"、"+i['content'])    j+=1

代码解析：

lstrip：当括号里的内容为空，默认删除开头空白符(包括\n、\r、\t、' '，即：换行、回车、制表符、空格)。如果不为空，该函数会把括号内的参数拆解成一个个的字符，然后把头部的这些字符去掉。

rstrip：和lstrip函数一样，只不过是去掉右边的(尾部)。

json.loads：将json格式数据转换为字典,或者说是将字符串转化为字典，方便进一步获取评论信息。

jd：是一个字典，对应comments键存的是一个列表,列表里的元素是该页面每个人评论的字典，获取字典中content的信息即为我们要的评论信息。

打印结果：

<class 'dict'>1、屏幕效果：屏幕不错，很轻薄超出想象，散热不错2、轻薄程度：比我想象的要薄，非常适合出差办公，棒棒的3、这个配置性能优越很正常了，最满意的是质量很轻很轻很轻4、电脑很好，对得起这个价格，物流也很迅捷，好评！好评！好评！5、很好的笔记本电脑，不错的选择6、很好 快递小哥送货快 周到7、散热性能：散热挺好轻薄程度：身 轻便其他特色：用来做软件开发，挺好，几天使用下来没发现什么不适，8、运行速度：挺快屏幕效果：清晰细腻散热性能：一般。用到现在3.5小时键盘中间、右侧挺烫手外形外观：显得很专业的黑方块，有安全感轻薄程度：可以9、运行速度：快速屏幕效果：喜欢散热性能：不错外形外观：喜欢轻薄程度：手感好10、运行速度：快屏幕效果：好散热性能：还行外形外观：小巧轻薄程度：薄

3 批量获取评论信息

import requests,jsonimport random
#headers的内容在Headers里面都可以找到headers = {'User-Agent':'User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',        'Request Method':'Get',         'callback':'fetchJSON_comment98'}content = []  #存放评价def crawler(url):        req=requests.get(url ,timeout=random.uniform(30, 50),headers=headers)  # 获取网页信息    jd=json.loads(req.text.lstrip("fetchJSON_comment98vv375(").rstrip(");"))  #先把不用的内容去掉，再用json库解析    for i in jd['comments']:        content.append(i['content'])#爬取自营T490s型号i7-8565U的评论for i in range(20):    url="https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100004380824&score=0&sortType=5&page={}&pageSize=10&isShadowSku=0&fold=1".format(i)    crawler(url)# 爬取自营T490s型号i5-8265U的评论for i in range(20):    url="https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=54331361555&score=0&sortType=5&page={}&pageSize=10&isShadowSku=0&fold=1".format(i)    crawler(url)

本节代码是1、2小节代码的汇总，只不过把爬取页面内容并解析成特定格式的语句定义成了函数，反复用循环去调用，从而把单页的评论连接成汇总的评论。由于T490s的评论只要600+条，小于20页，所以取了20这个值。

注：由于京东中评论属于第几页由page={}来控制，所以往这个{}里依次填入页的编号来控制进入下一页。

四、用获取的评论信息绘制词云图

接下来把上文获取的评论，绘制成词云图

t matplotlib.pyplot as plt #数学绘图库from PIL import Imageimport numpy as np #科学数值计算包，可用来存储和处理大型矩阵import pandas as pdimport jieba #分词库from wordcloud import WordCloud, ImageColorGenerator,STOPWORDS #词云库import os.path content_1 = "/".join(content)cut_text = jieba.cut(content_1,cut_all=False) # 结巴分词#:cut_all参数可选, True为全模式，False为精确模式,默认精确模式result= "/".join(cut_text) #必须给个符号分隔开分词结果,否则不能绘制词云replace = ['运行','程度', '其他','非常','外观','屏幕','效果','外形','还是']for i in replace: if i == '运行': result_1 = result.replace(i,'T490s') else: result_1 = result_1.replace(i,'')wordcloud = WordCloud(font_path="./电脑原始图片/simhei.ttf",stopwords=STOPWORDS,background_color='white',max_font_size=60).generate(result_1)plt.imshow(wordcloud)plt.axis('off')plt.show()

代码解析：

content_1 : 用join函数把爬取评论列表中的元素用/连接成字符串;

cut_text: 用jieba分词把content_1的内容分成一个一个的词，方便统计绘制成词云;

for: 把词云中'运行'这个词替换成T490s(只是为了看起来清晰)，另一些无意义的词删除;

wordcloud: 绘制词云图;

plt.axis: 去除坐标轴;

plt.show(): 在jupyter中显示图片.

结果：

也可以用如下语句导出图片

wordcloud.to_file(r'T490s.png')  #保存图片

本文是本人使用Python库进行爬虫的非商业行为，如有问题，请指正。如果想获取文中所有可直接执行的代码，可在公众号中回复"爬取京东评论"，即可免费获取。如对代码有疑问，可以到公众号中私信我。

xpanxcom

关注

7
点赞
踩
39

收藏

觉得还不错? 一键收藏
0
评论
【Python】【爬虫】，用Python爬取京东评论

最近想换电脑，又有点不确定买哪一款。所以决定爬取京东上电脑评论，做个参考，并把最终结果绘制成词云图。一、先来看下三款电脑评价的词云图1用Python爬取京东自营ThinkPad T490s的评论绘制成词云图2用Python爬取京东自营MacBook Pro的评论绘制成词云图3用Python爬取京东自营DELL G7i7-9750H的评论绘制成词云图可以发现这三款电脑的公共特点是轻薄、速度，ThinkPad和MacBook中出现办公字样，戴尔中出现...
复制链接

扫一扫

专栏目录