养成习惯,先赞再看
马上双十一快到了,对16年美妆销售数据进行分析。
分析美妆品牌的销售类别、销售分布情况以及消费者关注度、双十一购买高峰时间等。
数据为kesci公开数据集,如有需要数据以及源码可以私信
·
知识点
- pandas
- jieba
- matplotlib
- seaborn
·
❗️具体可以看图示代码,有代码解析
·
一、读取数据
使用pandas库,读取excel数据集,查看各字段信息
该数据集维度(27598, 7),也就是27599行和7个特征变量。每一行对应一个产品的销售情况
·
二、数据清洗
重复数据处理
对重复数据做删除处理
此处虽然删除了重复值,但索引未变,因此应用以下方法进行重置索引
缺失值处理
提取表格中有用信息并新增为列
对商品标题进行分词处理
将子类别sub_type新增为一列
将主类别main-type新增为一列
将“是否男士专用”新增为一列
新增销售额、购买日期(天)为一列
查看最终数据表格
·
三、数据分析
各品牌SKU数
品牌总销量和总销售额
各类别的销售量、销售额情况
各品牌热度
由上图所示:越靠上的品牌热度越高,越靠右的品牌销量越高,颜色越深圈越大价格越高
各品牌价格
男性护肤品销量情况
分析时间与销量的关系,体现购买高峰期
·
总结
以上介绍了对Excel数据进行分析的实例,详述请看代码,欢迎留言讨论
·
后面讲开始利用Python进行网络爬虫系列,记得关注哟➕
·
#数据分析#
#职场必备#