数据分析1.1

最新推荐文章于 2022-12-06 13:31:46 发布

SummerXW

最新推荐文章于 2022-12-06 13:31:46 发布

阅读量358

点赞数 1

分类专栏： python数据分析与挖掘文章标签： python数据分析 python数据挖掘 python爬虫

本文链接：https://blog.csdn.net/summer_jh/article/details/83865131

版权

本文通过对京东某一品牌手机评论的文本挖掘，分析用户情感、优点与不足。采用分词、停用词过滤、k-means聚类和LDA主题模型，揭示评论中的关键问题，如客服、摄像头、声音质量、降价保价和赠品。结论为购买决策提供参考。

摘要由CSDN通过智能技术生成

商品评论分析1

1.背景与挖掘目标
随着网上购物越来越流行,人们对于网上购物的需求变得越来越高,这让很多店商平台得以崛起,引发的激烈的竞争,除了商品质量的提高,压低商品价格外,了解更多的消费者心声对于其他将要购买产品的人或店商平台来说,变得越来越有必要了,其中重要的方式是对消费者的评论文本进行挖掘分析.

对京东平台上的手机评论进行文本挖掘分析
1)分析一品牌手机的用户情感分析
2)从评论文本中挖掘出该品牌手机的优点与不足

2分析方法

本次针对京东一品牌手机的消费者的文本评论数据进行分析.对文本进行基本的机器预处理,中文分词,停用词过滤(这里我采用词性过滤),通过建立栈式自编码深度学习,情感倾向模型(这里我直接爬取的是好评,差评,中评,没有通过基于情感倾向模型和转化为机器学习问题)k-means聚类,LDA主题模型分析,实现对文本评论数据的倾向性判断以及所隐藏的信息的挖掘并分析.

代码实现

1)数据获取

用浏览器浏览到商品评论页,右键点击检查元素,获取该页面请求的url即可,京东,淘宝等店商平台对爬取评论信息基本没有反爬措施.好像只能爬取前100页的评论(有什么能获取更多评论的方法请告诉博主,博主将不胜感激!!!)

代码清单如下:

import requests
import json
import re
import time
import pandas as pda

def main():
    bed_outfile = '输出地址\\bed_pl.csv'
    good_outfile = '输出地址\\good_pl.csv'
    con_outfile = '输出地址\\con_pl.csv'
    for i in range(1,4):
        if i==1:
            indx_page(i,bed_outfile,85)
        elif i==2:
            indx_page(i, con_outfile, 70)
        else:
            indx_page(i, good_outfile, 95)


def indx_page(i,file,m):
    sp_data = {'评论': '', '日期': '', '会员': '', '追评': '无', '追评日期': '无'}
    head = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
    }
    for j in range(m):
        url = 'https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv25770&productId=