通过用户评论建立产品画像系统

4 篇文章 2 订阅

  本文使用到的数据是从京东五谷磨房旗舰店爬取的核桃芝麻黑豆粉用户评论数据,共804条(非完整数据),其中好评:389条(非完整),中评:276条(完整),差评179条(完整)。

  在对用户评论进行了收集、分词、去停用词、按词性筛选等一系列文本处理后,我们拿出“好评”、“差评”和“中评”中出现频数最高的前100个词绘制了词云图。这些高频词看起来杂乱无章,但从中可以发现很多亮点。

  从好评词云图中可以看到用户提到了“味道”、“营养”、“口感”、“很香”、“早餐”、“物流”等。

好评词词云.png

  从中评词云图中可以看到用户提到了“味道”、“价格”、“包装”、“口感”、“降价”。

中评词词云.png

  从差评词云图中可以看到用户提到了“味道”、“价格”、“客服”、“降价”。

差评词词云.png

  在好评、中评和差评词中,用户提到最多的词就是“味道”,说明用户对该产品味道特征比较敏感,在好评词和中评词中,用户对“口感”做出了不同的评价,“价格”和“降价”则是中评与差评中的高频词。

  后续可进一步使用线性回归模型来探索每个热评词出现的频率是否能显著影响产品的好评率,并对每个显著的热评词进行深挖,找出它背后具体的“关注点”,并探索每个关注点的正负作用。

  最后,根据以上建立的得分体系,我们可以为每个产品进行整体画像,判断它在多个方面的整体表现。其次,根据不同方面的画像,我们可以更细致的给出该产品在该热评词各个关注点的细节画像,从中找出具体改进方向。

  研究过程中遇到的问题:

  1、京东对评论数据展示有限制,只展示商品前100页评论,即1000条评论;

  2、被京东监测到爬虫行为,会导致短暂无法查询到评价数据(爬取1000条评论被禁,几分钟后恢复),需要进一步研究反爬虫机制。

  3、热评词深挖还需要更专业的知识支撑,比如根据业务对热评词分类,建立数学模型计算热评词对好评率的影响等。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值