存数据返回他的序列号id_数据清洗-实战篇

一、数据清洗前的工作:

清洗数据之前,为了让数据显示完整,然后选中信息显示不全的列,鼠标右键,列宽设置调大。

二、提出问题:

1.哪一种商品销量最高?

2.哪个月份销量最好?

3.男婴用品与女婴用品哪种销量好?

4.哪个年龄的婴儿用品销量最好?

三、数据清洗步骤:

对“购买商品”“婴儿信息”表格进行数据清洗

步骤:

1, 选择子集。无用的信息可隐藏。原则:多隐藏少删除

根据以上问题,将列表中购买行为编号,商品序列号商品属性隐藏。

2,列表重命名。

为便于数据分析,将表头的英文全部以中文进行重命名:

user_id-用户名;auction_id-购买行为编号;cat_id-商品种类序列号;cat-商品序列号;property-商品属性;buy_mount- 购买数量;day-购买时间。birthday-出生日期,gender-性别(0-男性,1-女性)。

3,删除重复值。删除重复值避免重复。数据-删除重复项。

4,缺失值处理。

选中某列---定位条件(空值)--填写值,ctrl+enter填充全部缺失值。

经检查,每一列的数据都相同,所以没有缺失值。

5,一致化处理

在表格中,购买日期不是熟悉的日期格式,需要进行处理。

日期常规格式一般为:“2019/8/27”, 数据-分列-第三步格式选择日期-YMD,分列位置选择H列。

3bb504ee799b54f6d7d3aad87850c151.png

同理将婴儿信息表格中的birthday也进行转换,变成标准的日期格式。同时使用 DATEDIF 函数计算孩子的年龄

DATEDIF(Start_Date,End_Date,Unit)

Start_Date:为一个日期,它代表时间段内的第一个日期或起始日期;

End_Date:为一个日期,它代表时间段内的最后一个日期或结束日期;

Unit:为所需信息的返回类型。年:“Y”,月:“M”,日:“D”

在单元格内输入公式 =DATEDIF(B2,TODAY(),"Y")

b4e85ecf471a57a51720d8d3013d292c.png

四、数据描述性分析

1.哪一种商品销量最高?

通过排序功能,找出销量最好的商品种类为50018831

2.哪个月份销量最好?

插入数据透视表后,创建组,根据“月”进行统计购买数量,发现11月销量最高。

8aae1cdc563706a99df875ee3e3be05f.png

3.男婴用品与女婴用品哪种销量好?

用vlookup根据用户身份信息将2个表格进行数据匹配。

VLOOKUP(查找值,查找与返回数据所在范围,要返回数据的列序数,[匹配条件]

=VLOOKUP(A2,Sheet2!$A$2:$D$954,4,FALSE)

发现有些数据无法显示,因为购买数量表格与婴儿用品表格的用户并不完全相同。

此时将性别一列进行升序排列。插入数据透视表,选中性别与购买数量,0为男婴,1为女婴,表格中有2,则为错误数据不做考虑。男婴用品销量更高,几乎为女婴的2倍。

87e0638eb0d276f555a2008a48874d86.png

4.哪个年龄的婴儿用品销量最好?

插入数据透视表,选中年龄与购买数量。发现7岁婴儿用品销量最高。5-9岁婴儿用品是购买量最大的年龄段。

3cda48f9383eaf408859cf61c8a886fc.png

五、结论:

1.商品种类50018831的产品销量最高。另外,应时刻关注库存,防止断货。

2.11月为销售高峰期,可在9-10月开始大力进行宣传营销,并准备好库存。

3.男婴用品销量更高,几乎为女婴的2倍。可根据2:1的比例进行男女婴儿用品数量进行进货。

4. 5-9岁婴儿用品是购买量最大的年龄段。如果刚涉足婴儿用品领域,资金不充足,不妨从这个阶段的用品着手。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值