商品评论分析1
1.背景与挖掘目标
随着网上购物越来越流行,人们对于网上购物的需求变得越来越高,这让很多店商平台得以崛起,引发的激烈的竞争,除了商品质量的提高,压低商品价格外,了解更多的消费者心声对于其他将要购买产品的人或店商平台来说,变得越来越有必要了,其中重要的方式是对消费者的评论文本进行挖掘分析.
对京东平台上的手机评论进行文本挖掘分析
1)分析一品牌手机的用户情感分析
2)从评论文本中挖掘出该品牌手机的优点与不足
2分析方法
本次针对京东一品牌手机的消费者的文本评论数据进行分析.对文本进行基本的机器预处理,中文分词,停用词过滤(这里我采用词性过滤),通过建立栈式自编码深度学习,情感倾向模型(这里我直接爬取的是好评,差评,中评,没有通过基于情感倾向模型和转化为机器学习问题)k-means聚类,LDA主题模型分析,实现对文本评论数据的倾向性判断以及所隐藏的信息的挖掘并分析.
- 代码实现
1)数据获取
用浏览器浏览到商品评论页,右键点击检查元素,获取该页面请求的url即可,京东,淘宝等店商平台对爬取评论信息基本没有反爬措施.好像只能爬取前100页的评论(有什么能获取更多评论的方法请告诉博主,博主将不胜感激!!!)
代码清单如下:
import requests
import json
import re
import time
import pandas as pda
def main():
bed_outfile = '输出地址\\bed_pl.csv'
good_outfile = '输出地址\\good_pl.csv'
con_outfile = '输出地址\\con_pl.csv'
for i in range(1,4):
if i==1:
indx_page(i,bed_outfile,85)
elif i==2:
indx_page(i, con_outfile, 70)
else:
indx_page(i, good_outfile, 95)
def indx_page(i,file,m):
sp_data = {'评论': '', '日期': '', '会员': '', '追评': '无', '追评日期': '无'}
head = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}
for j in range(m):
url = 'https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv25770&productId=