防脱洗发水是个伪命题？8979 条数据告诉你答案

最新推荐文章于 2021-10-09 09:57:00 发布

CSDN 程序人生

最新推荐文章于 2021-10-09 09:57:00 发布

阅读量330

点赞数

通过对5款热销防脱洗发水的8979条评价进行情感分析，发现消费者对防脱洗发水的评价两极分化严重，但整体上正面评价占优。情感分析显示，28.95%的消费者给出了超0.8分的正向评价，而32.81%的消费者评价情感小于0.2。

摘要由CSDN通过智能技术生成

防水耐脏，超大容量双肩包，限时拼团仅需49元

作者 | 周志鹏

责编 | maozz

最近，小Q陷入了一个脱发死循环。

照镜子隐隐若现的头皮，洗完头地上乌压压的断发，让他无时无刻不担心自己的发量，一担心怎么办呢？挠头呗！

越脱发，越担忧；越担忧，越挠头；越挠头，越脱发...

“为什么不试试防脱洗发水呢？我有好几个同事在用。”我实在不忍心小Q继续循环下去。

小Q义正言辞：“我听说那些玩意儿没什么用啊！现在产品都喜欢打概念！”

“没有调查就没有发言权，你这样下定论太主观了。要不咱们从数据的角度来论证一下，防脱洗发水是不是个伪命题？”

“有点意思！”小Q来了劲儿。

说干就干。要论证防脱洗发水是不是个伪命题，得先搞清楚谁对防脱洗发水最有发言权。答案显而易见，买过防脱洗发水的朋友，他们对产品的评价，是最简单粗暴的论据。

所以，我们以淘宝为例，爬取5款热销洗发水评价数据，综合分析效果。

数据获取

目前淘宝反爬（尤其是滑块等验证）实在让人头大，但是我发现爬取评价数据并不一定需要和登录滑块硬刚，用selenium是可以绕过的。

部分代码如下，对爬取感兴趣的同学可以在文末链接下载详细代码，不感兴趣的同学直接往下滑：

import pandas as pd
from selenium import webdriver
import random
import os
import time


driver = webdriver.PhantomJS()


def get_page(driver):


    result = pd.DataFrame()
    for i in driver.find_elements_by_xpath('//div[@class = "rate-grid"]/table/tbody/tr'):
        try:
            content = i.find_element_by_xpath('td[@class = "tm-col-master"]/div[@class = "tm-rate-content"]').text
            #评价日期
            date = i.find_element_by_xpath('td[@class = "tm-col-master"]/div[@class = "tm-rate-date"]').text
            #购买产品
            sku = i.find_element_by_xpath('td[@class = "col-meta"]/div[@class = "rate-sku"]').text


            #用户名
            username = i.find_element_by_xpath('td[@class = "col-author"]/div[@class = "rate-user-info"]').text
            append_time = None
            append_content = None


        except:
            content = i.find_element_by_xpath('td[@class = "tm-col-master"]/div[@class = "tm-rate-premiere"]/div[@class = "tm-rate-content"]').text
            #评价日期
            date = i.find_element_by_xpath('td[@class = "tm-col-master"]/div[@class = "tm-rate-premiere"]/div[@class = "tm-rate-tag"]/div[@class = "tm-rate-date"]').text
            #购买产品
            sku = i.find_element_by_xpath('td[@class = "col-meta"]/div[@class = "rate-sku"]').text
            #用户名
            username = i.find_element_by_xpath('td[@class = "col-author"]/div[@class = "rate-user-info"]').text


            append_time = i.find_element_by_xpath('td[@class = "tm-col-master"]/div[@class = "tm-rate-append"]/div[1]').text
            append_content = i.find_element_by_xpath('td[@class = "tm-col-master"]/div[@class = "tm-rate-append"]/div[2]').text


        df = pd.DataFrame({'用户名':[username],'购买产品':[sku],'评价日期':[date],'初次评价内容':[content],
                         '追评时间':[append_time],'追评内容':[append_content]})


        result = pd.concat([result,df])


    return result,driver

热门关注点

我们爬了5款产品，共计8979条评价，然后把评价中TOP15高频词做成词云图：

很明显，消费者对于防脱洗发水的诉求简单粗暴，效果是第一核心关注点。虽然“没用”也在TOP15高频词中，但整体而言，正面词汇更加集中，消费者并不吝给出不错、好评、好用等评价。

除效果外，味道成了消费者的“论点”，毕竟洗完头之后，洗发水是通过味道来散发魅力。防脱洗发水，营造的防脱希望十分重要，不少消费者在收到货后，都已经开始期待头皮变得浓密。

下面，我们从情感分析的角度来切入。

防脱洗发水情感分析

情感打分，虽然很多人自诩是一个没有感情的杀手，但说出来的每一句话却都洋溢着“感情”。

拿刚爬到的评论数据来说，任何一个消费者在评论时都带着和产品相关的主观情感，要么觉得好，要么觉得烂，只是个体对于好和烂的感知程度不同罢了。

So，这里我们用SnowNLP这个库，为每条评价进行情感打分，通过分值来量化情感倾向。（分值在0-1之间，越靠近0负面倾向越强，越接近1则正面情感越强）

from snownlp import SnowNLP


sens = []


for text in final_re['初评内容']:
    s = SnowNLP(text)
    sens.append(s.sentiments)


#final_re是评价数据源
final_re['初评情感评分'] = sens

一个回车，打分完毕！