虽然Excel的入门比较简单,但如果可以熟练掌握,那Excel就会是一个强大的数据分析工具。
接下来我将会用Excel对描述统计分析及应用中提到的数据进行简单的分析。
首先,需要明确用Excel进行数据分析的流程是什么,流程化思维可以帮助我们有目的有逻辑的解决问题。下面是大致的流程,具体的流程会在分析的过程中体现。
1.明确问题
明确了要解决哪些问题,才能有重点有方向对数据进行分析,利用数据分析结果来解决问题。
- 哪类商品及子分类商品销量最多?
- 母婴类产品用户更关注哪类商品属性?
- 不同性别儿童的商品偏好?
- 不同种类商品,更受哪个年龄段儿童的欢迎?
- 不同商品的购买时间偏好?
2.理解数据
理解采集的数据中每个字段的含义,才能在数据分析的过程中选择合适的字段、数据进行分析。这一步已经在描述统计分析及应用分析过了,这里就不再赘述。
3.数据清洗
数据清洗也就是对采集来的数据进行预处理的过程,把数据处理成适合分析的数据。这需要选择需要分析的字段,保证数据中没有重复数据,没有缺失数据,把数据格式进行统一、排序,没有明显的异常值等,方便后续的数据分析。
主要有以下几个步骤:
(1)选择子集
由于两个数据集中没有重复含义的字段,因此,不需要对已有字段进行操作。
由于Excel中的数据因为列宽较小,视觉效果比较乱,所以对列宽进行调整,并设置自动换行。
(2)列名重命名
为了方便后续的数据分析,将字段名称全部更换为中文。
(3)删除重复值
表1现有的字段中,具有唯一性的字段有“用户id”和“商品编码”,但考虑到“同一名用户可以多次购买”“不同用户可以购买同一商品”,所以无法仅通过某一列确认是否有重复值。
因此设置辅助列“用户id&商品编码”,即某用户某次购买某商品来确认,得知表1中不存在重复值。
表2不存在重复值。
(4)缺失值处理
由于辅助列的数据是完整没有缺失的,通过对比辅助列,发现在表1的商品属性中存在144个缺失值。
由于商品属性用于“母婴类产品用户更关注哪类商品属性”的分析,而缺失值占总数据比例仅为0.4%,对结果的影响可以忽略不记,因此对缺失值不进行处理。
(5)一致化处理
由于需要分析“不同商品的购买时间偏好”,因此需要通过【分列】和【设置单元格格式】将用户购买时间格式统一为日期,方便后续的统计分析。
由于需要分析“不同年龄儿童的商品偏好”,因此需要通过DATEDIF函数计算出儿童的年龄。
(6)数据排序
暂时不需要对这两个表进行排序
(7)异常值处理
通过Excel的筛选功能查看,未发现明显异常值。
4.数据分析
在对数据进行预处理后,就可以入手进行目标问题的分析了。
(1)哪类商品及子分类商品销量最多?
需要对不同种类商品进行分类并进行统计。
问题涉及的字段为:一类商品,二类商品,购买数量。
因此通过【数据透视表】将一类商品和二类商品设为行标签,将购买数量设为值。并将数据透视表的结果进行降序排列。
可以看出,一类标签中,28类商品销量最多,其次是50014815,50008168。38、50022520和122650008的销量都较少。
28类商品中,50011993二级商品的销量最多。
50014815中,50018831二类商品销量最多
50008168中,50007016二类商品销量最多
38中,211122二类商品销量最多
50022520中,50023591类商品销量最多
122650008中,二类商品销量最多
(2)母婴类产品用户更关注哪类商品属性?
首先通过分列功能对商品属性字段进行处理,但得到的结果是文本(如图),无法进行描述统计分析。
我的解决办法是,首先将文本转换成数据。通过【替换】功能把文本中的“:”替换为“”,这样所有的单元格格式均变为了数字,再通过描述统计分析功能可以得到每一列的众数。
下一步将众数行进行提取,转置后删除重复值,因为不同列的众数可能相同
最后,通过COUNTIF函数计算出众数在所有分列数据中的个数并进行排序,最终结过见下图。
通过对数据格式进行还原,可以得出1628665:3233942的商品属性的商品销量最多。
(3)不同性别儿童的商品偏好?
需要对儿童性别进行分组,看哪类商品销量最多。
涉及到的字段为:儿童性别,一类标签,购买数量。
因此,首先需要通过VLOOKUP函数,表二中对应的商品即购买数量。
再通过数据透视表进行分析,可以看出:
- 女性儿童的商品购买数量多余男性儿童
- 在女性儿童中,销量最多的商品为50014815类
- 在男性儿童中销量最多商品为50008168
(4)不同种类商品,更受哪个年龄段儿童的欢迎?
涉及到的字段为:儿童年龄,一类标签,购买数量。
通过数据透视表进行分析,可以看出:
- 6-9岁儿童的商品销量是最高的
- 28类商品更受6岁儿童欢迎;38类商品更受8岁儿童欢迎;50008168类商品更受7岁儿童欢迎;50022520类商品更受6岁儿童欢迎;122650008类商品更受8岁儿童欢迎。
(5)不同商品的购买时间偏好?
涉及到的字段为:一类标签,购买时间,购买数量
通过数据透视表进行分析,可以看出:
- 母婴类商品在2013年和2014年的销量普遍较高
- 2012年、2013年、2015年都是28类商品销量都是最高的;2014年50014815类商品超过28类商品销量更好
- 母婴类产品总体随着季度的增加销量增加,第四季度的销量最高,第一季度的销量最低。
- 50008168类2014年第四季度销量不如前两年,可以通过更多数据分析找到问题的原因,从而提出解决办法
- 50014815类商品2014年第四季度销量突增,可以结合当时的情况分析销量提高的原因,以为后面的销售策略提供借鉴