列名无效如何解决_数据分析实战(4)--数据分析解决问题框架

d231ffb6221a82020fc0055b4a508808.png

在熟悉业务流程、掌握分析方法后,面对实际数据和具体问题时,依然很容易陷入在数据表面打转,没有抓住重点的局面,不能得到有效的解决方案。那是因为我们还缺少用数据解决问题的流程。

有了逻辑严密的分析流程,可以确保数据分析的有效性,在提出解决方案时一步步展现我们合乎逻辑的分析思路,也能更有效的让人信服。同时在分析的时候从全局考虑问题,考虑时间的分配,有计划地展开工作。

742de6a47d65fab0c1af8881f14b2877.png

1 明确问题

425eb4aa6d1564b11d34b04ceb0476bb.png

明确问题需要我们客观定义问题,不能预设立场,以为凭借以往的经验,通过主观臆断得出问题的关键和解决方法,客观是数据分析的基本原则。

同时要拓宽视野,局限在一个范围内看问题可能出现“确认偏误”,也就是把假设范围设定地过于狭窄,以致于把问题的关键排除在假设外,最后白费力气也找不到有效的解决方法。

定义问题首先需要保证数据的可靠,了解数据帮助我们更好地界定问题,包括明确时间、地点、数据来源。然后我们需要对业务指标含义和比较对象进行确认,找出现状和理想之间的差距,差距就是问题所在。

2 拆分问题,锁定问题关键

a1034ce21dc0ccd6cbc4e7f7f0d2f83c.png

2.1 逻辑树+多维度拆解分析方法,拆解复杂问题

很多时候我们面对的问题都不能直接得出答案,全面客观地看待问题是数据分析的重要原则之一。解决复杂问题通常的思路就是拆解成更容易解决的子问题,然后一一解决,最终组合起来解决原问题的目的。

2.2 对每个子问题运用假设检验分析,锁定关键因素

拆分成子问题的意义在于降低解决复杂问题的难度,而子问题还可以继续无限拆分下去。但有些子问题并不需要进一步详细分析,只需要通过简单的假设检验,就能知道问题的关键不在此处,省去了一些无用功。假设检验分析一般有三个步骤:提出假设、收集证据、得出结论。每一步只需要简单验证当前假设,进一步的分析可以在得出结论后再进行拆解验证。假设检验分析可以在解决一个复杂问题的过程中在反复使用,直到找出关键因素。

2.3 具体分析需要组合运用分析方法

在解决问题的过程中,前一篇文章中讲到的多维度拆解、对比分析、假设检验、相关分析等分析方法通常都会组合使用,保证我们能全面看待问题,严谨细致地分析得出问题关键。

  • 遵循解决问题的一般流程,我们通常会先使用逻辑树+多维度拆解问题,可以依据问题的特点,如所在的行业、问题所指的对象、流程等灵活运用合适的角度分解问题。
  • 进一步寻找关键因素则可以运用假设检验对拆解的子问题逐一排除错误的方向,假设检验的过程当中可以运用对比分析得出相关信息。
  • 为了得到问题发生的原因,还可以运用相关分析对影响关键因素的指标进行分析。

3 运用相关分析,找出原因

之前的操作都是现有数据范围内的结果,而我们做数据分析最终的目标应该是找出得到该结果的原因,才能采取相应措施解决问题。

相关分析是看两个变量是否有强相关关系,相关关系的强弱用相关系数表示,具体计算可以交由计算机进行,只需知道简单的操作就可以得到两个变量间的线性相关关系。假如变量过多,暂时无法确定那两个变量存在相关关系,可以利用相关系数矩阵得到任意两个变量间的相关系数,方便我们快速寻找相关变量。

使用散点图也可以简单直观的看出两个变量之间的相关关系。

需要注意的是,两个变量相关并不代表两者存在因果关系。需准确地找到原因,必须要在确定两个变量相关的基础上,进一步看是否存在其中一个变量先变化,后一个变量紧跟着前者变化的跟随关系。

4 制定可行对策,解决问题

找到了关键因素并且确定了问题发生的原因,我们就可以依据之前分析的结果,定量计算出现实与理想情况的差距,考虑具体采取哪些措施,具体需要多少的投入。

比较简单的定量计算我们可以考虑使用一元回归分析,将两个变量之间的相关关系转化成具体数学公式。如果存在多个具有相关关系的原因,还需要讨论这些原因之间的优先顺序。可以根据回归方程的斜率,决定优先顺序。

电商数据分析实战

数据来源

Baby Goods Info Data-数据集-阿里云天池​tianchi.aliyun.com
fc3450babc52e91da6a7f0719747639e.png

一、明确目的

通过销售数据分析,全面了解销售情况,找到规律和可优化的地方,提升销售量。

1.1理解数据

表1购买商品表共29972条数据,包括7个字段,分别是

ceabdef62856a2a8486a5a1dc055af3c.png

534f9b62a000ea6566ac56c1973c9f97.png
表2 购买商品-原始数据

表2婴儿信息表954条数据,包括3个字段,分别是:

f5113a92dc5947273c418940f4c63e9d.png

这两个表的“用户ID”字段表示的信息是一致的。

3ba57fb9e8f89a4520633c6487a91fb4.png
表2 婴儿信息-原始数据

二、数据分析

2.1 清洗数据

修改列名:把英文字段名称修改为中文。大部分从数据库取出的数据字段为英文,转化为自己理解的中文,更方便我们操纵数据。

3a25247044506b0157f6faf4d80badbf.png
表1购买商品-修改列名

f69939e0066476cb2c07bcfb2fd1b7f6.png
表2婴儿信息-修改列名

删除重复值:主键(用户ID,交易记录ID),唯一标识购买记录。以用户ID+交易记录ID字段为条件,在excel进行中删除重复值操作,结果为无重复值。表明该数据集较规范不需要过多清洗。

缺失值处理:只有具体商品属性有缺失值,不影响分析结果,不处理。

一致化处理:有些数据并不是我们想要的格式,通过一致化处理把原始数据转化成便于操作的数据格式。

购买日期数据类型为常规数值型,通过分列转化为日期型。

f1eb2f8e6785b96e09bdd42eafcd3dee.png
购买日期一致化处理(前)

d009f941c04d80c059c709012896e7f7.png
购买日期一致化处理(后)

同样处理表2的婴儿出生日期

8dd4b3a81d43fcbab0d11a64f7c20c4d.png
婴儿出生日期一致化处理(后)

为了更好利用数据,需要处理婴儿年龄、性别字段:进行多表连接查询:利用vlookup查询对应用户的婴儿出生日期、婴儿性别记录,把查询得到的结果复制粘贴到新工作表,

婴儿性别为无性别(值为2)的比例很小,删除此部分数据。并将数字(0-1)转变成文字(男-女)方便理解。

计算得到婴儿年龄,发现存在负值。由于婴儿食品的受众主要为0-6周岁的婴儿,删去婴儿年龄小于-1,或者大于7的用户。其余年龄向下取整,值为负数的数据统一处理为“未出生”,按取取整后的年龄划分为不同年龄阶段。使用Excel加载项-数据分析工具,进行描述统计分析。

04d93b0fcc3e9255235d6c07b880c70b.png
处理负值年龄

为了方便统计分类,新增一列“阶段”,将年龄向下取整,得到分布情况如下:

eec3efc17be6476eafae5f808a3a719d.png
婴儿年龄阶段分布

由下面婴儿性别分布图,可见婴儿男女比例较均衡。

194155d3336a486d0a92f3f84f161296.png
婴儿性别分布

1.2总体分析思路

ef71380c0e669bca746a4b107914f58e.png

将销售情况按照逻辑树分析方法,多维度拆解为两大类:产品角度和用户角度。

从产品角度出发,用逻辑树分析,进一步分为总体成交量和畅销产品分析,这两者都可以运用对比分析,与历史数据进行对比,比较整体大小、波动情况、趋势。

从用户角度出发,运用假设检验分析,验证商品类别分别与婴儿年龄、性别是否有关。


2.2 分析/建模

问题1:2014年下半年销量上涨原因分析

对销量进行多维度拆解,可以把购买用户分成老用户和新用户,分别运用假设检验分析,得出结论。分析过程如下图。

51eebb7ec90e16c5653aac7ebec06344.png

选出用户ID字段有重复值的记录,共52条记录,总销量为90。可见老用户占比少,复购率不高,对下半年销量上涨的影响不大。先搁置不分析。余下29915条记录都为新用户购买记录。

6ee54a441e5a38b1ac91d35b35dbc37b.png
老用户购买记录

下图为不同年份下半年月销量汇总统计,可以看到对比2013年,2014年下半年各月销量均高于去年同期。其中10月、11月、12月增幅明显。

9b45dffdc29cb6d6c0642c161bffdfee.png
下半年月销量

将销量这一指标拆分,销量=订单数×每单平均购买量。每月订单数持续上升,每单平均购买量有波动,2013年波动幅度较大,平均值在1.5-2之间来回波动,而2014年下半年每单平均购买量明显趋于平缓,稳定在1.5-1.75左右。说明销量上涨主要原因是新用户订单数上涨,且用户更偏向于少量购入。

6dc140edd5a4f50d6088c22d07c47842.png
月订单数、平均购买量

接下来我们运用多维度拆解+假设检验分析,进一步分析2014年下半年销量上涨的原因。

假设日常需求的持续增加导致了2014年下半年销量上涨。汇总统计各年度日销量,并对其进行描述统计分析,结果如下图。

447f645892fcf21576d6bedde4708162.png
日销量描述统计

无论是从日销量平均数还是中位数来看,2014年日销量都是有明显增长的,增幅大概为41%-46%。所以可见日常需求持续增加导致了2014年下半年销量上涨的假设成立。

假设大型促销活动导致了2014年下半年销量上涨。如下图,2014年下半年日销量在11月11日、11月22日、11月26日、12月6日和12月12日出现较高的异常值。拆分日销量为日订单量✖平均购买量,发现只有11月11日和12月12日的订单量大导致销量上涨,余下4天均发现有一个购买量为100左右的大额订单,从而拉高了该日的销量。我们可以推测“双十一”和“双十二”大型促销活动吸引新顾客购买商品,订单量为平时的5-10倍,导致了日销量同样增长,为平时的4-11倍。

2df33a4c4d0900bc530eb2af13f9de37.png

e61eab0976a4b93dc83289ff6ba760ec.png

2013年也出现类似情况,除了11月11日和12月12日的高日销量的的原因为促销引起的订单量增长,其余日期均为少数大额订单导致异常高销量。

b80048ad71a00a4433c79bfac0917dd8.png

34aaf66f792741099b79561fde0732bb.png

“双十一”和“双十二”的促销模式为提前预售,在“双十一”和“双十二”当天付清尾款后正式确认订单,也就是说订单成交日期是集中在大促当天,订单数的增加导致高日销量。这与以上的数据推测的情况吻合,所以可以得出大型促销活动增加订单数,然后导致最终的日销量增加。

2c13f1a1d3909a122392e3ff0f59f418.png
各年大型促销活动相关指标

进一步分析“双十一”和“双十二”两次促销对销量的影响。由于日销量数据波动比较大,利用中位数表示平时销量水平。2014年“双十一”销量比去年翻了一番,日订单量和每单平均购买量都有大幅的增长,去除日常需求持续上涨的影响,2014年“双十一”大促效果比往年要好。值得注意的是每单购买量涨幅明显,也就是说在2014年“双十一”顾客会多买一些来囤货。去除日常需求上涨的因素,2014年“双十二”的促销效果与去年差不多。

对比平时销量,促销活动确实带来了销量的增长。对比去年,2014年“双十一”促销效果较好,“双十二”促销效果与去年持平。但总体来说,这两次大型促销对2014下半年的销量上涨影响有限,主要原因还是日常需求持续上涨,体现为平均日订单量为2013年的1.5倍。

建议:进一步调查日常需求的增长点,向目标客户群体定向化推送相关产品

问题2:2014年下半年畅销商品种类有哪些?销量增长最多的品类是哪一个?如何制定下一年度的各品类的销售推广策略?

上面已经得到结论:2014年下半年销量上涨的主要原因是对婴儿食品的日常需求持续上涨,新客户群体增大,订单量上涨。我们进一步就可以从产品的角度,研究这些新的需求来源于哪些品类?所占下半年总销量的比例是多少?

汇总统计2013和2014年下半年的各品类销售量,很容易看出绝对增量最多的两个品类为50008168和28,增长量分别为1205和1183件。而从增长趋势来看,品类38、122650008、50022520、50008168涨幅均超过平均涨幅,增长势头明显。

f45a308bb96b7c70b8221e95135dddb9.png
2013、2014下半年各品类总销量

3dd9ce6728d29a62d6ff6219d0d0bef3.png
2013、2014下半年各品类销售量指标

我们可以粗略将这六大品类分成两组进行进一步对比分析。第一组是总销量较多的28、50008168,代表目前的明星品类,需要重点分析。第二组则是总销量占比小,但增长迅速的38、50022520和122650008,代表有增长潜力的品类,关注其成长。

第一组包含总销量最多的两类单品,两者分别占2014下半年的32%和30%,总体来看差不多,品类28的销量略高。按月来看销量波动程度,28的月销量在10月出现明显的下滑,波动程度较大,进一步查看销售记录发现该品类存在16个购买数量在30以上的大额订单,销量受到这些大额订单的影响较大。而品类50008168只有一个数量为33的大额订单,总体波动程度较小。从总体销量的增幅来看,50008168的涨幅为43.5%,在平均涨幅之上,明显高于品类28的37.5%。结合比例大小和趋势看,未来品类50008168的销量会超过品类28,成为婴儿食品的销量冠军,值得作为主打品类,大力推广。

c9686a1d29b2b85949088e382ff7378e.png

d041f92959c23f2cf7d34759da188dff.png
品类28、50008168对比分析表

第二组包含涨幅较大的三个品类。对比结果如下表,总体看38的占总销量的比例较大,而且增长趋势喜人,销量增幅为72.4%,为各品类之最。为最有潜力的新增长点,也应该给予大力推广。

18401a7e3306bcb76bdfdc6f3bf1f8da.png

52da0c7ba0dca8105a1c7d3df0895c2a.png
品类38、50022520、122650008对比分析表

建议:顺应消费潮流,将品类50008168作为明星主打品类,品类38作为最有潜力的品类,加大力度进行推广,吸引更多新用户购买。

问题3:如何利用现有用户信息,进行有针对性的推广?

从客户的角度出发,将产品和用户群体进行匹配,从而实现有针对性的推广。

首先由于只有一部分订单拥有关联的用户信息,需要确认这部分样本的代表性,看能否符合总体的情况。下图为有用户信息的在2014下半年的所有订单销量按品类的汇总统计,对比前文的数据,可以看出比例明显不符,所以在2014年下半年的数据没有代表性。要解决该问题,可以进一步对用户数据进行分层抽样。

e1a5bd1b9cf42c1e2eecb296a047624f.png

为了方便分析,我们假设该样本能代表总体。我们选择所有时段的订单-用户数据进行分析。

3.1 假设用户购买行为和性别有关。按性别分类汇总销售数据,考虑到男女性别比例不是一比一,衡量平均购买力用的指标是平均每单购买量。下图为不同性别的总销量和平均每单购买量。从总量和平均购买力两方面来看,女婴购买力要大于男婴。

3f125116d66211df3e8c8a209e3b5cba.png
男女总体销量和每单购买量

拆分为各年度的销量,除了2015年因为数据不全,可以看到每个年度都是女婴购买量大于男婴,而且2012年的女婴购买量大约为男婴的5倍。进一步查看2012年的订单,发现存在一个数量为160的大额异常订单。考虑到要分析的是用户总体的情况,删去该异常记录。

754a0eea54d4a63e3c7f5fd68c242fbc.png
男女各年度总体销量

c78f107ae6138065de8fa2f7e1bb037b.png
销售数量为100的异常记录

去除该异常大额记录后,男女总体销量如下图。可以看到女婴的总体购买力要大于男婴。

1b4a8f6aaf8af076bc0fd99c6e180c3f.png
(删除异常值后)男女总体销量

将销售数据按年度展开,看到男女的销量均呈上升趋势。用指数模型拟合形成趋势线,可知女婴销量的增长速度要快一点。

68aa708559b88ee1b84de6773b9a2e4e.png
(删除异常值后)各年度男女总体销量及趋势

进一步进行指标拆解,将销量分解成订单量和平均购买量。由下图可以得到,每年度男女订单量相差不多,女婴略多;女婴平均购买量要高于男婴。

d191e8652d1ee169e1537d2764f29371.png
(删除异常值后)各年度男女订单量和平均购买量

综上,用户购买行为和性别有关。女婴的总体订单量和平均购买量均高于男婴,购买力大于男婴,且销量增长速度也大于男婴,消费潜力巨大。可以针对拥有女婴的用户增加推广力度。

3.2 假设用户购买行为和年龄有关。在前面进行数据清洗时已经将年龄向下取整,划分为不同阶段。考虑到婴儿未出生时购买的婴儿食品大概率也是给0-1周岁的婴儿食用,所以将“未出生”的记录并入“一周岁以下”。下图为处理后的各年龄阶段的购买量汇总统计图。“一周岁以下”阶段占总购买量最多,达44%,随着婴儿年龄增加,用户购买总量急速锐减,大概萎缩为前一阶段的一半左右。

833d925e13ed77f29bcf544eecd6771d.png
各年龄阶段购买量

同样,将购买量拆分成订单量×平均购买量。可以看到订单量与总购买量同方向变动,证明目标用户群体数量随着婴儿年龄的增加而变小,对婴儿食品的需求变低,平均购买数量也呈现下降趋势。而平均购买数量最多的是婴儿处于1-2岁阶段的用户,为1.72件。所以,用户购买行为与年龄有关。

657963dce019709015d51bbfd0ae0d73.png
各年龄阶段订单量和平均购买量

接下来进一步对不同年龄段的购买商品品类进行研究。下图是年龄-品类分布图,每一个点都是代表一条记录。为了方便统计和显示,将购买商品的一级分类ID重新编号,横坐标的标签就是新的编号,从左到右分别是1代表50008168、2代表50014815、3代表28、4代表38、5代表50022520、6代表122650008。我们可以看到在某些区数据密集分布,证明该年龄阶段的婴儿与某品类有对应关系。如婴儿在“未出生”(-1~0岁)阶段的用户集中购买品类为50022520的商品;在-0.5~1岁时集中购买品类50014815的商品;品类50008168和28的目标年龄分布较广且密集,覆盖全年龄段的婴儿。

da5d8294f7b7d3b7c90dbf0f5636d0ae.png

下图为不同年龄与购买数量的数据分布图。与前面得出的结论一致,婴儿年龄越小,目标用户越多而且平均购买量越多。我们也可以观察到出现三个离群点,其中两个处在1-2岁阶段,购买量大,可以推断前面出现的1-2岁的平均购买量偏高是受到这两个离群值的影响。

077afb694dd3d9bab7ae377df79a0670.png

去除这三个离群值后,各年龄的平均购买量相差不大。

6519beb66dbcb8a5b906fe800bdc2be4.png

根据上面对婴儿年龄与用户购买行为的分析,提出以下建议:

  1. 从搜索品类50022520、50014815的用户入手,识别潜在用户。这两个品类的购买记录对应”未出生“婴儿用户,可以尝试推送相应阶段对应的其他品类商品,提升销量。同时尽量发展为全生命周期的高价值用户,吸引该用户在婴儿的各阶段都锁定在本平台进行购物。
  2. 动态追踪用户信息,根据用户婴儿年龄动态推送相应品类的商品广告。随着该用户婴儿年龄的增长,提前推送适合更高龄的产品。
  3. 填补断层商品空缺。品类50008168和28覆盖了大部分年龄层次的需要,但是销量并不是特别大,还有很大一部分的需求没有被满足,这可能需要有针对性的开发新品类。如1-3岁的的阶段没有出现集中购买某品类的现象,可能有未被满足的需求。

因为篇幅有限,挑选了以上三个比较有代表性的问题进行深入分析,遵循数据分析的流程,综合运用多种分析方法,得到有价值的信息,并提出对应问题的建议。总体流程如下:

cd9b8c1802fe551ecd9cf9db63d1b068.png

如有错误,烦请指正,谢谢。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值