电商的出现极大的方便了我们的生活。网购已经不是什么新鲜的话题,我们在网上买了产品,收到包裹,看到产品之后,接下来就是对产品的评价。‘好评’越多,就会很大程度的促进交易的达成;而‘差评’越多则会极大伤害客户购买的信心。尤其是不好的评价都包含了大量产品用户对产品以及服务的改进意见。这些评价同样也可以引导企业产业链条的持续改进。在此基础上,我选择了围绕女性服装电子商务,客户撰写的评论数据集进行数据分析。
1.数据来源
数据来源于kaggle,是一个围绕客户撰写评论的女性服装电子商务数据集,它包含了
23486*10个数据。
数据集来源地址:Women's E-Commerce Clothing Reviewswww.kaggle.com
2.提出问题
我认为作为一个数据分析师,明白为什么要分析?分析的目的很重要。只有这样,才能
运用正确的分析方法得到想要的结果。因此,首先应该提出要分析的问题。电商关系的业务指标包括:买家评价率、买家好评率、买家差评率、买家推荐率,因此,分析的主要问题包括:
1.买家好评率
2.买家差评率
3.买家推荐率
3.理解数据
将Excel数据导入到Python中,并查阅该数据集,如下图所示:
该数据集主要由10个字段组成,包括:Clothing_ID, Age, Title, Review Text, Rating, Recommended IND, Positive Feedback Count, Division Name, Department Name, Class Name。
Clothing_ID:服装ID
Age:年龄
Title:标题(评论内容的标题)
Review Text:评价内容
Rating:评级(1—5,从1最差到5最佳)
Recommended IND:推荐IND,1表示推荐,0表示不推荐
Positive Feedback Count:正反馈计数。(评价为正的客户数量)
Division Name:分部名称
Department Name:产品名称
Class Name:类名
4.数据清洗
1) 列重命名
导入的表格字段都是英文字段,为了方便读者理解,将原字段重命名为中文。实现过程如下:
2)处理缺失值
因为此次分析,需要关注的是评级、推荐IND、正反馈计数。因此,分别对这几列进行缺失值处理,如果有缺失值,则删除。实现过程如下:
可见,此数据集的数据比较齐全,没有缺失值。
3)类型转换
将数据转换为int行,方便后面的计算
4)异常值处理
评级主要包括:1,2,3,4,5五个等级。保存‘评级’列的大于0的数据,以便后续分析。
5.构建模型
1)买家好评率
好评率=评分达到5的次数/总评次数
具体实现如下:
由上可知,好评率为55.90%,也就是一半以上的服装是受大众消费者的喜欢的。
2)买家差评率
差评率=评分为1的次数/总评次数
由上可知,差评率为3.59%,可见,部分服装并不是很受大众的喜欢,商家可以通过此部分的评价,改善服装以满足更多的消费者。
3)推荐率
推荐率 = 进行推荐的总数/总数(包括1和0)
由上可知,将近83.24%的产品得到了推荐。可见,大部分产品是受用户喜爱的。
6)总结
根据好评率、差评率、推荐率可知,不同类型的服装并不是都会受到所有的消费者的喜欢,在此,商家应该多关注差评,根据消费者的评价内容,对产品进行改进,降低差评率,提高推荐率,以吸引更多的消费者。