取数少返工:数据分析新手避坑指南

更多文章请前往:www.isaacsun.xyz

开始之前:数据样貌的感性理性认知

在进行数据分析之前,我们首先需要对数据进行全面且深入的了解。这不只是简单地查看数据,而是需要对其背后的含义、模式和背景有深刻的认知。通过这样的方式,我们可以确保分析的结果更为准确,更接近真实的情况。

以分日消费分析为例。在开始具体的分析之前,我们应该首先对数据概况有一个基本的了解:

  • 这个平台目前有多少客户?
  • 每个客户的日均消费是多少?
  • 整个平台的日均总消费又是多少?
  • 客户的消费是如何分布的?

这些初步的信息可以通过之前的经验或者以往的数据分析来获取。只有掌握了这些基本信息,我们才能够确保在分析的开始阶段就朝着正确的方向前进。

当我们获取数据时,渠道或许众多,但第一步总应是确保数据的来源、周期和属性,从而验证其完整性和质量。如果我们对数据的含义抱有模糊或错误的理解,或者使用的数据不完整、质量低劣,那么最后的分析结论很可能就会出现偏差。

首要的,我们需要明确每一项数据的具体含义

  • 这份数据是从何处得来的?
  • 它的周期是多长?
  • 它是一个总和、最大值、最小值、平均值还是某种计数值?
  • 这是原始数据,还是已经过某种处理和计算的数据?
  • 这个字段是什么意思?我该怎么理解?它是怎么获得的?它的上游数据依赖哪里?

在实践中,一个常见的误区是对获取的数据采取想当然的态度。一方面,数据永远都不是理想的、完全正确的;另一方面,正确的数据在传输和处理之中,也可能出错。许多现代的 BI 系统都允许用户选择某个时间周期,并按照一定的方式来获取数据。但在处理这些数据时,我们真的能够保持与原有数据相同的计算逻辑吗?

例如,当我们在 BI 系统中获取近 15 天的分客户日均消费,一个关键的问题便是:平均值是如何计算的?分母是「15 天(选择的周期)」还是仅仅考虑「15 天内有消费记录的天数」?如果一个客户仅在 3 天前加入了平台并开始消费,那么在计算其日均消费时,分母应该是 15 天还是 3 天?

又或者,当我们从 BI 系统中获得过去 3 天的分日、分客户的曝光、点击、点击率等数据时,我们应该如何计算平台上所有客户的平均点击率?简单地计算所有点击率的平均值显然是不准确的。因为对于「点击率」这种汇总值,如果我们真正理解其定义和计算方式,就能明白「平均点击率」实际上应该是「总点击量」除以「总曝光量」得到的比值。

交付视角:警惕沉浸数据之中

在数据分析的过程中,不能仅仅关注数据,还要思考其背后的业务逻辑。对于许多业务问题,单纯的当前数据分析可能不足以给出准确的答案。因此,引入历史数据进行对比,或分析时间趋势,可以为分析带来更深入的见解。例如,某一商品的销售额突然增长,可能是由于促销活动、季节性变化或其他外部因素。

除此之外,避免只从一个角度或维度看问题。多维度的分析可以帮助我们发现潜在的模式或异常情况,这对于深入了解业务至关重要。例如,不仅分析总销售额,还应分析各个地区、各个年龄段或其他维度的销售数据。

这些基本的数据分析对相关软件的要求不是很高,掌握数据连接(pd.merge、VLOOKUP、SQL)、数据筛选、数据透视与数据可视化(数据透视表、PowerBI、Tableau)等技巧,就可以完成数据的展现。

但是数据呈现距离数据交付看似很近,实则很远:呈现的是数据,交付的是结论。

在这个过程中,要始终保持审慎和清醒的态度,不断地问自己问题,比如:“这个数据背后意味着什么?”、“是否有可能存在其他影响因素?”。从数据出发,但目的是解决实际问题,而不仅仅是获取数据本身。

提炼数据结论的简便方法是,基于预设的问题,尝试回答问题;在回答问题的基础上提出更多相关问题,并尝试进行进一步回答:这些问题既可以来自数据分析者的视角,也可以来自结论验收者(通常是管理者)的视角。经过数次迭代,得到有足够数据支撑的分析结论,这时就需要考虑交付形式。

快速的工作节奏下,谁都难以认真逐行阅读数据分析的定义、步骤、展现、结论;如何快速、准确、全面表达自己的结论,并让他人易于理解?可以参考**“结论先行、独立拆分、有序分析”**的金字塔原理。后续会有更详细的文章介绍金字塔原理的核心思想,这里只给出一种可能的、通用的展现形式:

  • 核心结论:先前预设的问题,解答是什么?
  • 派生结论:除了核心结论,还产生了哪些信息,下一步的分析、发展方向。
  • 支撑数据论点:分别呈现支撑论点的各项数据,数据呈现上远远不是把透视表列出来即可,如何让数据呈现的更易于理解,也是需要探索并不断积累学习的课题。
  • 数据的来源、定义、获取逻辑、计算方式:这是数据分析最基础的部分,但不是可以省略的部分——不同的定义会导致结论天壤之别,因此这部分可能不是分析报告的主体,但是应当是分析报告的支撑。

在数据呈现(以表格呈现为基础)上,让数据变得简洁易读不仅可以帮助观众快速理解信息,还可以避免由于冗余和混淆所造成的误解,其核心方法是:突出核心数据,阐明定义数据,展示异常数据,隐去无关数据:

  1. 突出核心数据
    • 使用颜色或字体: 对关键数字使用深色或加粗字体,使其在整个表格中脱颖而出。
    • 排名和排序: 当数据量大时,通过排序可以帮助观众快速找到最高或最低的数据点。
  2. 阐明定义数据
    • 提供单位: 无论是货币、百分比还是其他单位,都需要清晰标注,以避免任何混淆。
    • 注释: 在表格旁边或底部提供注释,解释某些特定的数据项或定义。
    • 明确标题: 每个列和行的标题应明确且简洁,准确地描述其内容。
  3. 展示异常数据
    • 使用颜色高亮: 异常数据可以使用与其他数据不同的颜色来标记。
    • 提供解释: 若某些数据出现异常,提供注释或简短的解释,以帮助读者理解其原因。
  4. 隐去无关数据
    • 删减: 无关或不必要的数据列或行应当从表格中去除或者合并,只留下关键信息。
    • 使用折叠或下拉菜单: 对于线上呈现的数据,可以使用折叠或下拉菜单来隐藏不常用或次要的信息,但允许有需要的用户查看。
    • 提供筛选工具: 如果可能,为读者提供筛选工具,以便他们可以选择性地查看他们感兴趣的部分。

这些原则的具体应用,可以在工作中不断积累迭代,后续本文也会补充对应的案例。但无论遵守什么原则,核心是满足受众(验收者)的需求。

关注少数:正确对待极端值异常值

实际业务中遇到的每一个样本值都是有现实意义的。在进行样本分布分析时,极端值和异常值常常给出的信息比常规数据更多。因此,对这些值务必保持高度警觉:

  • 这个样本是否符合你的先前的认知?
  • 如果符合认知,那么可能是由于哪些因素导致的?
  • 如果不符合认知,那么这个数据出现的原因是什么?是因为用户/样本本身非常特殊,还是数据获取逻辑存在问题导致的偏差?

这一切都应该是在产生数据分析的结论之前完成的。不是所有的时候,极端值都会影响分析的结论,但是有的时候,极端值会提示新的信息。

例如,在分析广告投放账户的数据时,一个账户可能因为短时间内的大额投放导致的极端值,这时就需要进一步分析该账户的行为。

而另一种可能,极端值可能会因为预设结论而被忽略,比如下面这个例子:

某一次进行广告投放账户的数据分析时,需要分析商品和账户之间的对应关系。

数据逻辑上,商品和账户之间存在多对多的对应关系,即:一个账户可以投放多个商品,一个商品可以被多个账户投放。这个时候,就需要进行账户和商品对应关系的数据分析。

业务背景上,长期以来我们一直在引导,广告主 / 优化师每个账户应当投放单个商品,有多个商品时操作多个账户分别进行投放。

因此,这次分析的预设结论就是:绝大多数账户投放 1 个以内商品

简单的分层计数透视后,得到的数据如下(数据已进行脱敏):

投放N个商品账户数账户数占比
0-1C90%+
D-LE-
M-NO-
P-QR-
S-TU0.01%
V-WX0.01%
Y-ZAA0.01%
BB-CCDD0.01%
CD-EEFF0.01%
100+HH0.02%
总计II100.00%

一眼看去:非常符合预期,90%+ 的账户投放 1 个以内的商品,我们的引导宣教非常成功。

这个时候就很容易忽视过大的极端值:什么样的账户会同时投放 100 个以上的商品?客户为什么选择使用一个账号进行投放?这些账号的消费如何?

确认账户具体信息发现,这些账户很多根本没有投放商品!

于是回溯数据获取逻辑,发现投放商品数的字段同时也代表着投放目标是「直播间」而非「商品」投放直播间的数量。这是一个很明显的逻辑错误,如果使用这个数据,那得出的结论也将不置信。

随后针对该问题对数据进行了清洗,清洗之后重新进行分层计数透视,得到的数据如下(数据已进行脱敏):

投放N个商品账户数账户数占比
0-1C90%+
D-LE-
M-NO-
P-QR-
S-TU0.01%
V-WX0.00%
Y-ZAA0.00%
BB-CCDD0.00%
40+FF0.00%
总计II100.00%

依旧非常符合预期,90%+ 的账户投放 1 个以内的商品;但同账户投放商品的最大值 40+,且只有一个,这是远小于原数据的。再次确认账户具体信息,投放多个商品的客户售卖促销图书、花卉种子等商品,这也是现实存在的情况。

两次数据的结论看似一致,但是支撑数据的逻辑完全不同。如果仅仅关注预设结论,那么就会错过这些信息。同时产品功能导致出现的逻辑问题,也就被淹没在数据之中了。

学习工具:磨刀不误砍柴工

数据分析不仅仅是看数据,还需要合适的工具和技术来帮助我们进行分析。持续学习和更新工具知识可以提高我们的分析效率,同时,正确地使用工具也可以避免在数据处理和分析过程中出现误差。另外,有效的数据可视化工具可以帮助我们更好地理解数据,并迅速识别异常或趋势。图表、曲线和其他视觉工具不仅可以简化复杂的数据分析,而且可以帮助我们更好地与他人沟通和分享分析结果。

这过程中可能会遇到数据中台基建不完善的情况,此时可以依赖本地分析工具,在 Excel 基础上,可以尝试探索 VBA、自动化工具、PowerBI 套件或 Tableau 等专业数据分析软件的用法,熟练掌握 Python 的也可以使用 pandas 库等。这是一个各显神通的过程,但是无论使用什么工具,掌握的工具越熟练、流程越自动化,效率就能越高

在此之外,可以不断学习数据可视化的图表用法。这部分将在未来的其他文章中补足。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值