化妆品电商平台数据分析报告

最新推荐文章于 2023-03-23 13:45:00 发布

伍壹_

最新推荐文章于 2023-03-23 13:45:00 发布

阅读量2k

点赞数 2

文章标签：数据分析大数据数据挖掘

本文链接：https://blog.csdn.net/sqdw12/article/details/126740477

版权

通过对化妆品电商平台5个月的数据分析，发现平台新用户留存低，跳失率高，用户结构不稳定。用户加购和购物车行为能反映消费倾向，但推荐机制与用户需求存在错位。建议优化产品推荐，提高加购-购买转化率，制定针对不同用户群体的留存策略。

摘要由CSDN通过智能技术生成

分析目标：描述该平台在用户以及用户在产品消费上的现状定位，找到该平台目前的核心优势或是亟待解决的核心问题，提供下一步发展最核心有效的方向和相应建议
分析对象：国外某中型to c 化妆品在线商店
数据来源：https://www.kaggle.com/mkechinov/ecommerce-events-history-in-cosmetics-shop
数据描述：数据包括该中型化妆品在线商店的5个月（2019年10月至2020年2月）共2000万条用户行为数据，包括浏览、加购、移出购物车、购买下单行为分类，以及行为发生时间、对象产品、产品分类、品牌等
分析方法：AARRR海盗模型，RFM用户分层模型，对比与时间序列分析、漏斗与流程分析
数据处理使用工具：
- 考虑总体数据数据量极大，总体数据的清洗及部分分析在python3平台上完成
- 提取典型性数据（12月数据）至MySQL平台提取所需分析数据
- PowerBI及Tableau产出可视化图表
分析结构：

event_time	事件发生的时间（以标准世界时 UTC 为单位）
event_type	view- 查看产品 cart- 将产品添加到购物车 remove_from_cart- 从购物车中删除了产品 purchase- 购买了产品
product_id	产品ID标识
category_id	商品类别 ID
category_code	产品的类别分类（代号）。通常用于有意义的类别，而对于不同类型的配件则跳过。
brand	品牌名称的缩写字符串。可以错过。
price	浮动价格，产品的当前价格
user_id	永久用户 ID。
user_session	用户的临时会话 ID。每个用户的会话相同。每次用户从长时间的暂停中返回在线商店时都会更改。

1、读取转换：python读取5个月csv表的数据并进行拼接，最终合成为 20692840行, 9个字段的数据，数据量非常庞大。

2、列名重命名：将字段名按字段解释改为对应中文名

3、整体去重：删除各列都重复的数据，去重后数据量是19583742条

4、缺失值：统计数据缺失情况，产品类别分类、品牌、临时用户会话id存在缺失值。

5、异常值：通过Matplotlib箱线图查看数据总体是否有异常值，结果基本无异常。

单独查看价格情况，购买行为中价格记录存在负值（统计共124条），应为退款情况，将此部分记录筛选去除

6、时间类型处理：时间字段类型读取后为字符串类型，去除结尾'UTC'，将之转换为时间对象

import time 
transform_date = data['时间'].apply(lambda x:x.split('UTC')[0]) 
data[

关注