购物评论的数据分析

        购物评论是消费者对所购买商品的使用和消费体验的评价,购物评论对网店经营策略和客户选取商品都有很大的借鉴意义。本文针对购物评论的数据分析进行研究,并对购物评论单词的频率进行统计分析和可视化处理;使用LDA主题模型对商品进行主题分类,并通过随机森林模型预测商品种类;使用TF-IDF模型进行关键词提取工作,使用TextCNN模型进行训练预测产品评级;选取合适的指标然后使用主成分分析法建立商品评论评价模型,通过聚类分析和Logistic二元回归等模型对商品评论类型做出判断和优化验证;最终结合数据分析成果为客户更好的购物体验,提出相关建议。

        针对问题一,我们首先对附录中的商品进行了单词频率统计,然后对数据中没有实际意义的冠词和副词剔除,将修正后的数据导入软件制作文字云图。最后对数据进行可视化处理,利用四分位法对单词频率的变量进行重新编码设置区间制作散点图,绘制可视化分箱图,设置分割点直观得出数据的分布。

        针对问题二,我们首先对附录中的商品评论进行数据清洗和文本去停用词处理,然后通过LDA 主题模型和处理分词数量和词性统计,从附录中提取出不同商品的用途、外观、价格三种主题所对应关键词。最后随即选取70%样本对随机森林进行训练并不断更新其中决策树的相关权重并利用剩下样本进行检验,最终得到预测效果较为优秀的随机森林模型。将附录商品评论预测并对其进行可视化处理,发现预测效果理想。

针对问题三,我们首先将附录Ⅴ附录V和附录Ⅵ的数据整合,然后对文本数据进行文本提取、文本预处理以及训练集和验证集的分类。接下来使用训练集建立情绪分析模型,先使用TF-IDF模型进行关键词提取,再使用TextCNN模型进行训练。使用建立好的模型对验证集进行预测,得出准确率为65.31%,达到了不错的预测效果。

        针对问题四,我们首先结合实际和相关资料设置指标,对数据进行正态分布检验和皮尔逊相关性分析,发现部分指标的相关性较强后建立主成分分析法评分模型。接下来对客户评分进行K均值聚类分析,对两个聚类组进行客户评论和机器评论的设置。最后设置0/1分布带入Logistic二元回归进行回归优化分析,得出准确率79.1%,验证评估标准设置良好。最后结合问题的讨论方法和结论,给客户写一封信提出网上购物建议。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值