大数据应用开发和项目实战-电商双11美妆数据分析

星辰瑞云

已于 2025-05-07 16:23:36 修改

阅读量746

点赞数 14

文章标签：大数据

于 2025-05-06 13:57:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84627304/article/details/147728835

版权

数据初步了解

（head出现，意味着只出现前5行，如果只出现后面几行就是tail）

info

shape

describe

数据清洗

重复值处理

这个重复值是否去掉要看实际情况，比如说：昨天卖了5瓶七喜，今天卖了5瓶七喜，同样的数量，这种重复值就不能删除，要有一个合理的解释去说明删除的是无效重复数据。

缺失值处理

存在的缺失值很可能意味着售出的数量为0或者评论的数量为0，所以我们用0来填补缺失值

数据挖掘寻找新的特征

街道库（jieba）的使用方法，包括精确模式、全模式和搜索引擎模式的不同应用场景。

给出各个关键词的分类类别

创建主类别和子类别，并通过关键词进行标签化

由title新生成两列类别

通过中文分词技术对title列进行处理，将其分为大类和小类，便于后续数据分析。

对是否是男性专用进行分析并新增一列

对每个产品总销量新增销售额这一列

数据分析及可视化

使用Python进行数据可视化，包括绘制柱形图和饼图

通过代码实现数据的排序和分组，并生成相应的图表

通过图表不难看出以下几点：
悦诗风吟的商品数量遥遥领先，然而其商品销量只排在第三位，总销售额只排在第五位。
SKII,玉兰油，植村秀商品数量大概都在500-1500的范围，而销量为0。

相宜本草商品数量也只属于中游，但其销量销售额均排在第一位，由于其销量是第二名的大约两倍，而销售额远不到两倍，所以销售额/销量，也就是每一单的均价也是一个值得研究的新指标。

通过加入平均每单单价之后，观察销售额较高的几个品牌相宜本草，欧莱雅，佰草集，悦诗风吟，雅诗兰黛。

其中相宜本草，悦诗风吟，欧莱雅都是平均单价200元以下的，佰草集为200-300元区间，雅诗兰黛为大于500元区间。是否能够判断价格亲民的品牌的销售额会相对来说更高？下面根据这里的数据先把平均单价分为几个区间，其中0-100元记为A类，100-200元记为B类，200-300元记为C类，300元及以上记为D类。

（分析各品牌商品数、销量和总销售额，以及平均每单单价。

按价格区间将商品分为A、B、C、D四类，分析性价比。

细化品类分析，包括底妆、口红、化妆水等。）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。