京东手机评论文本挖掘与数据分析(Python)

该博客主要讲述了如何使用Python爬虫对京东手机评论进行数据挖掘,包括获取评论URL、数据预处理(去重、分词)以及后续的数据分析,如词频统计和词云生成,旨在揭示消费者需求和反馈。
摘要由CSDN通过智能技术生成

这里写自定义目录标题

目的

随着网上购物的流行,各大电商竞争激烈,为了提高客户服务质量,除了打价格战外,了解客户的需求点,倾听客户的心声也越来越重要,其中重要的方式就是对消费者的文本评论进行数据挖掘。

工具

1、Python3.7 + Pycharm
2、Google浏览器

爬虫

1、获取相应的URL
①本文对京东平台的手机进行爬虫,首先进入京东商城,选择一款手机,这里以华为P30为例
在这里插入图片描述
②按下F12,进入开发者工具,选择Network,点击下一页评论,刷新网页,在Name一栏找到productPageComments京东评论所在的数据包,复制Headers这里的URL并保存在一个txt中用于分析,并找到user-agent用于爬取时的浏览器伪装
在这里插入图片描述
③通过前三页的Request URL可以分析出京东手机每一页的评论都是根据page的增加来获取
在这里插入图片描述
④通过preview可以看到评论被服务器放在comments标签下,这里有每一位用户的评论信息,包括用户id、评论时间、产品型号和颜色等等,其中content对应的就是用户评论的内容。这样我们就能通过正则表达式解析出我们需要的内容。
在这里插入图片描述
⑤下面我们就通过上面的准备工作,开始爬取数据

import urllib.request
import re
import requests
import time
import random
import json

# 设置请求头
headers = ('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36')
opener = urllib.request.build_opener()
opener.addheaders = [headers]
urllib.request.install_opener(opener)

# 获取URL
url = 'https://sclub.jd.com/comment/productPageComments.action?callback=&productId=100002749549&score=0&sortType=5&pageSize=10&isShadowSku=0&fold=1'

f = open('E:/comments/华为P30.txt', 'w', encoding='utf-8')
for i in range(0, 20):
    t = str(time.time()*1000).split('.')
    pagram = {
   
        'page': i+1,
        'callback': 'fetchJSON_comment98vv4092%s' % 
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值