一、背景和目的
通过分析电子产品销售数据,探索产品的具体销售情况,了解产品需求和受欢迎度,实现更加精细精准化运营,使业务更好地增长。
二、数据集简介
数据来源:和鲸社区数据集——电子产品销售分析,本数据包含了有关日期、订单、销售额等信息,一共564169行,12列。
数据字段介绍:
三、分析框架与思路
四、数据清洗
(一)导入和读取数据
1、创建并使用数据库
2、导入并读取数据
创建表,名为sales
导入数据文件——电子产品销售分析:
一共564169行,12列。
(二)值处理
1、空值
(1)查找空值
由于数据量较大,用NULL命令输出的结果不方便浏览,所以用COUNT命令检查各列对应的行数是否相等。
经对比,发现空值在category_code和brand两列。
(2)空值处理
category_code缺失564169-434799=129370行,占比较大,不宜去除,统一用N填充。brand缺失564169-536945=27224行,占比不大,可去除。
2、重复值
考虑到同一个订单可能有多个产品或者同一个产品可能有多个数量,这里不作处理。
3、异常值
年龄列无异常值,价格为0的记录输出30行,实际中商家可能在推广活动中有免费赠品,因此不用删除。
4、无用值
Unnamed为行号,属于多余值,需要删除。
(三)修改列
1、删除和新增列
删除未知列,新增日期、年、月、周几、小时列。
2、新列赋值