excel中如果条件相同是否可以替换目标字段_数据分析之Excel的简单应用

虽然Excel的入门比较简单,但如果可以熟练掌握,那Excel就会是一个强大的数据分析工具。

接下来我将会用Excel对描述统计分析及应用中提到的数据进行简单的分析。

首先,需要明确用Excel进行数据分析的流程是什么,流程化思维可以帮助我们有目的有逻辑的解决问题。下面是大致的流程,具体的流程会在分析的过程中体现。

1151e3fc196b21a469a09b8f5c4ac25d.png

1.明确问题

明确了要解决哪些问题,才能有重点有方向对数据进行分析,利用数据分析结果来解决问题。

  • 哪类商品及子分类商品销量最多?
  • 母婴类产品用户更关注哪类商品属性?
  • 不同性别儿童的商品偏好?
  • 不同种类商品,更受哪个年龄段儿童的欢迎?
  • 不同商品的购买时间偏好?

2.理解数据

理解采集的数据中每个字段的含义,才能在数据分析的过程中选择合适的字段、数据进行分析。这一步已经在描述统计分析及应用分析过了,这里就不再赘述。

3.数据清洗

数据清洗也就是对采集来的数据进行预处理的过程,把数据处理成适合分析的数据。这需要选择需要分析的字段,保证数据中没有重复数据,没有缺失数据,把数据格式进行统一、排序,没有明显的异常值等,方便后续的数据分析。

主要有以下几个步骤:

7466dc98f975aa832e0bb6b2e9427b5f.png

(1)选择子集

由于两个数据集中没有重复含义的字段,因此,不需要对已有字段进行操作。

01ef5fcd0a3d177cb9a36ad75126454a.png

由于Excel中的数据因为列宽较小,视觉效果比较乱,所以对列宽进行调整,并设置自动换行。

a58e309853fef6d7bea0014bfc18f097.png
调整前数据

9a6fe95557cc05805e70a7ff8b4db981.png
调整后数据

(2)列名重命名

为了方便后续的数据分析,将字段名称全部更换为中文。

37882a4f43261d7e563a4ae203c016ce.png

b7e53cbd410438a0dbd1ed16f4a4ca30.png

(3)删除重复值

表1现有的字段中,具有唯一性的字段有“用户id”和“商品编码”,但考虑到“同一名用户可以多次购买”“不同用户可以购买同一商品”,所以无法仅通过某一列确认是否有重复值。

因此设置辅助列“用户id&商品编码”,即某用户某次购买某商品来确认,得知表1中不存在重复值。

表2不存在重复值。

(4)缺失值处理

由于辅助列的数据是完整没有缺失的,通过对比辅助列,发现在表1的商品属性中存在144个缺失值。

b64b3b53111d18c8c17a6873beb507d8.png

由于商品属性用于“母婴类产品用户更关注哪类商品属性”的分析,而缺失值占总数据比例仅为0.4%,对结果的影响可以忽略不记,因此对缺失值不进行处理。

(5)一致化处理

由于需要分析“不同商品的购买时间偏好”,因此需要通过【分列】和【设置单元格格式】将用户购买时间格式统一为日期,方便后续的统计分析。

f8c2b34a955ce026b27e2c2eec3ccbec.png

由于需要分析“不同年龄儿童的商品偏好”,因此需要通过DATEDIF函数计算出儿童的年龄。

d1aa6915488246947616ad367e10bab9.png

(6)数据排序

暂时不需要对这两个表进行排序

(7)异常值处理

通过Excel的筛选功能查看,未发现明显异常值。

4.数据分析

在对数据进行预处理后,就可以入手进行目标问题的分析了。

(1)哪类商品及子分类商品销量最多?

需要对不同种类商品进行分类并进行统计。

问题涉及的字段为:一类商品,二类商品,购买数量。

因此通过【数据透视表】将一类商品和二类商品设为行标签,将购买数量设为值。并将数据透视表的结果进行降序排列。

可以看出,一类标签中,28类商品销量最多,其次是50014815,50008168。38、50022520和122650008的销量都较少。

32a3b2f56d6d8219b1a417615e19e4be.png

28类商品中,50011993二级商品的销量最多。

20ee5eed668ea150a7233ff57f62cac8.png

50014815中,50018831二类商品销量最多

a2a72316146117642b65d66ba2da76b9.png

50008168中,50007016二类商品销量最多

2478a5d2a5b95eb0dcc0378b3b1160dd.png

38中,211122二类商品销量最多

c2a3b8777a9ea35424d2106d96a97bea.png

50022520中,50023591类商品销量最多

ae55847e1037e34c78494bd5bcf892ad.png

122650008中,二类商品销量最多

960843f7c84b4558f460bc70a265cbc8.png

(2)母婴类产品用户更关注哪类商品属性?

首先通过分列功能对商品属性字段进行处理,但得到的结果是文本(如图),无法进行描述统计分析。

f1fec0bba860b89b6a4da1731f0c7bf3.png

我的解决办法是,首先将文本转换成数据。通过【替换】功能把文本中的“:”替换为“”,这样所有的单元格格式均变为了数字,再通过描述统计分析功能可以得到每一列的众数。

下一步将众数行进行提取,转置后删除重复值,因为不同列的众数可能相同

最后,通过COUNTIF函数计算出众数在所有分列数据中的个数并进行排序,最终结过见下图。

af9222f3d04b39fec5318b1aba330ef4.png

通过对数据格式进行还原,可以得出1628665:3233942的商品属性的商品销量最多。

(3)不同性别儿童的商品偏好?

需要对儿童性别进行分组,看哪类商品销量最多。

涉及到的字段为:儿童性别,一类标签,购买数量。

因此,首先需要通过VLOOKUP函数,表二中对应的商品即购买数量。

2aeba097f4b7479e89fed15072bbd2bf.png

再通过数据透视表进行分析,可以看出:

  • 女性儿童的商品购买数量多余男性儿童
  • 在女性儿童中,销量最多的商品为50014815类
  • 在男性儿童中销量最多商品为50008168

9b2478bd9c4c333354e8820906c5850f.png

(4)不同种类商品,更受哪个年龄段儿童的欢迎?

涉及到的字段为:儿童年龄,一类标签,购买数量。

通过数据透视表进行分析,可以看出:

  • 6-9岁儿童的商品销量是最高的
  • 28类商品更受6岁儿童欢迎;38类商品更受8岁儿童欢迎;50008168类商品更受7岁儿童欢迎;50022520类商品更受6岁儿童欢迎;122650008类商品更受8岁儿童欢迎。

7be9987981380c8f6fd64e4736cfe614.png

7e67fb75b9297781133551e63ee8452b.png

(5)不同商品的购买时间偏好?

涉及到的字段为:一类标签,购买时间,购买数量

通过数据透视表进行分析,可以看出:

  • 母婴类商品在2013年和2014年的销量普遍较高
  • 2012年、2013年、2015年都是28类商品销量都是最高的;2014年50014815类商品超过28类商品销量更好

d4f4d322338bf6d814ffcbf8b745a4f1.png
  • 母婴类产品总体随着季度的增加销量增加,第四季度的销量最高,第一季度的销量最低。
  • 50008168类2014年第四季度销量不如前两年,可以通过更多数据分析找到问题的原因,从而提出解决办法
  • 50014815类商品2014年第四季度销量突增,可以结合当时的情况分析销量提高的原因,以为后面的销售策略提供借鉴

61b211b506a9a1c7c9c3c58ec06ad6d4.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值