取数少返工：数据分析新手避坑指南

最新推荐文章于 2025-07-31 16:11:39 发布

原创最新推荐文章于 2025-07-31 16:11:39 发布 · 220 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#数据分析 #大数据 #人工智能

数据分析经验分享专栏收录该内容

2 篇文章

订阅专栏

更多文章请前往：www.isaacsun.xyz

开始之前：数据样貌的感性理性认知

在进行数据分析之前，我们首先需要对数据进行全面且深入的了解。这不只是简单地查看数据，而是需要对其背后的含义、模式和背景有深刻的认知。通过这样的方式，我们可以确保分析的结果更为准确，更接近真实的情况。

以分日消费分析为例。在开始具体的分析之前，我们应该首先对数据概况有一个基本的了解：

这个平台目前有多少客户？
每个客户的日均消费是多少？
整个平台的日均总消费又是多少？
客户的消费是如何分布的？

这些初步的信息可以通过之前的经验或者以往的数据分析来获取。只有掌握了这些基本信息，我们才能够确保在分析的开始阶段就朝着正确的方向前进。

当我们获取数据时，渠道或许众多，但第一步总应是确保数据的来源、周期和属性，从而验证其完整性和质量。如果我们对数据的含义抱有模糊或错误的理解，或者使用的数据不完整、质量低劣，那么最后的分析结论很可能就会出现偏差。

首要的，我们需要明确每一项数据的具体含义：

这份数据是从何处得来的？
它的周期是多长？
它是一个总和、最大值、最小值、平均值还是某种计数值？
这是原始数据，还是已经过某种处理和计算的数据？
这个字段是什么意思？我该怎么理解？它是怎么获得的？它的上游数据依赖哪里？

在实践中，一个常见的误区是对获取的数据采取想当然的态度。一方面，数据永远都不是理想的、完全正确的；另一方面，正确的数据在传输和处理之中，也可能出错。许多现代的 BI 系统都允许用户选择某个时间周期，并按照一定的方式来获取数据。但在处理这些数据时，我们真的能够保持与原有数据相同的计算逻辑吗？

例如，当我们在 BI 系统中获取近 15 天的分客户日均消费，一个关键的问题便是：平均值是如何计算的？分母是「15 天（选择的周期）」还是仅仅考虑「15 天内有消费记录的天数」？如果一个客户仅在 3 天前加入了平台并开始消费，那么在计算其日均消费时，分母应该是 15 天还是 3 天？

又或者，当我们从 BI 系统中获得过去 3 天的分日、分客户的曝光、点击、点击率等数据时，我们应该如何计算平台上所有客户的平均点击率？简单地计算所有点击率的平均值显然是不准确的。因为对于「点击率」这种汇总值，如果我们真正理解其定义和计算方式，就能明白「平均点击率」实际上应该是「总点击量」除以「总曝光量」得到的比值。

交付视角：警惕沉浸数据之中

在数据分析的过程中，不能仅仅关注数据，还要思考其背后的业务逻辑。对于许多业务问题，单纯的当前数据分析可能不足以给出准确的答案。因此，引入历史数据进行对比，或分析时间趋势，可以为分析带来更深入的见解。例如，某一商品的销售额突然增长，可能是由于促销活动、季节性变化或其他外部因素。

除此之外，避免只从一个角度或维度看问题。多维度的分析可以帮助我们发现潜在的模式或异常情况，这对于深入了解业务至关重要。例如，不仅分析总销售额，还应分析各个地区、各个年龄段或其他维度的销售数据。

这些基本的数据分析对相关软件的要求不是很高，掌握数据连接（pd.merge、VLOOKUP、SQL）、数据筛选、数据透视与数据可视化（数据透视表、PowerBI、Tableau）等技巧，就可以完成数据的展现。

但是数据呈现距离数据交付看似很近，实则很远：呈现的是数据，交付的是结论。

在这个过程中，要始终保持审慎和清醒的态度，不断地问自己问题，比如：“这个数据背后意味着什么？”、“是否有可能存在其他影响因素？”。从数据出发，但目的是解决实际问题，而不仅仅是获取数据本身。

提炼数据结论的简便方法是，基于预设的问题，尝试回答问题；在回答问题的基础上提出更多相关问题，并尝试进行进一步回答：这些问题既可以来自数据分析者的视角，也可以来自结论验收者（通常是管理者）的视角。经过数次迭代，得到有足够数据支撑的分析结论，这时就需要考虑交付形式。

快速的工作节奏下，谁都难以认真逐行阅读数据分析的定义、步骤、展现、结论；如何快速、准确、全面表达自己的结论，并让他人易于理解？可以参考**“结论先行、独立拆分、有序分析”**的金字塔原理。后续会有更详细的文章介绍金字塔原理的核心思想，这里只给出一种可能的、通用的展现形式：

核心结论：先前预设的问题，解答是什么？
派生结论：除了核心结论，还产生了哪些信息，下一步的分析、发展方向。
支撑数据论点：分别呈现支撑论点的各项数据，数据呈现上远远不是把透视表列出来即可，如何让数据呈现的更易于理解，也是需要探索并不断积累学习的课题。
数据的来源、定义、获取逻辑、计算方式：这是数据分析最基础的部分，但不是可以省略的部分——不同的定义会导致结论天壤之别，因此这部分可能不是分析报告的主体，但是应当是分析报告的支撑。

在数据呈现（以表格呈现为基础）上，让数据变得简洁易读不仅可以帮助观众快速理解信息，还可以避免由于冗余和混淆所造成的误解，其核心方法是：突出核心数据，阐明定义数据，展示异常数据，隐去无关数据：

突出核心数据
- 使用颜色或字体: 对关键数字使用深色或加粗字体，使其在整个表格中脱颖而出。
- 排名和排序: 当数据量大时，通过排序可以帮助观众快速找到最高或最低的数据点。
阐明定义数据
- 提供单位: 无论是货币、百分比还是其他单位，都需要清晰标注，以避免任何混淆。
- 注释: 在表格旁边或底部提供注释，解释某些特定的数据项或定义。
- 明确标题: 每个列和行的标题应明确且简洁，准确地描述其内容。
展示异常数据
- 使用颜色高亮: 异常数据可以使用与其他数据不同的颜色来标记。
- 提供解释: 若某些数据出现异常，提供注释或简短的解释，以帮助读者理解其原因。
隐去无关数据
- 删减: 无关或不必要的数据列或行应当从表格中去除或者合并，只留下关键信息。
- 使用折叠或下拉菜单: 对于线上呈现的数据，可以使用折叠或下拉菜单来隐藏不常用或次要的信息，但允许有需要的用户查看。
- 提供筛选工具: 如果可能，为读者提供筛选工具，以便他们可以选择性地查看他们感兴趣的部分。

这些原则的具体应用，可以在工作中不断积累迭代，后续本文也会补充对应的案例。但无论遵守什么原则，核心是满足受众（验收者）的需求。

关注少数：正确对待极端值异常值

实际业务中遇到的每一个样本值都是有现实意义的。在进行样本分布分析时，极端值和异常值常常给出的信息比常规数据更多。因此，对这些值务必保持高度警觉：

这个样本是否符合你的先前的认知？
如果符合认知，那么可能是由于哪些因素导致的？
如果不符合认知，那么这个数据出现的原因是什么？是因为用户/样本本身非常特殊，还是数据获取逻辑存在问题导致的偏差？

这一切都应该是在产生数据分析的结论之前完成的。不是所有的时候，极端值都会影响分析的结论，但是有的时候，极端值会提示新的信息。

例如，在分析广告投放账户的数据时，一个账户可能因为短时间内的大额投放导致的极端值，这时就需要进一步分析该账户的行为。

而另一种可能，极端值可能会因为预设结论而被忽略，比如下面这个例子：

某一次进行广告投放账户的数据分析时，需要分析商品和账户之间的对应关系。

数据逻辑上，商品和账户之间存在多对多的对应关系，即：一个账户可以投放多个商品，一个商品可以被多个账户投放。这个时候，就需要进行账户和商品对应关系的数据分析。

业务背景上，长期以来我们一直在引导，广告主 / 优化师每个账户应当投放单个商品，有多个商品时操作多个账户分别进行投放。

因此，这次分析的预设结论就是：绝大多数账户投放 1 个以内商品。

简单的分层计数透视后，得到的数据如下（数据已进行脱敏）：

投放N个商品	账户数	账户数占比
0-1	C	90%+
D-L	E	-
M-N	O	-
P-Q	R	-
S-T	U	0.01%
V-W	X	0.01%
Y-Z	AA	0.01%
BB-CC	DD	0.01%
CD-EE	FF	0.01%
100+	HH	0.02%
总计	II	100.00%

一眼看去：非常符合预期，90%+ 的账户投放 1 个以内的商品，我们的引导宣教非常成功。

这个时候就很容易忽视过大的极端值：什么样的账户会同时投放 100 个以上的商品？客户为什么选择使用一个账号进行投放？这些账号的消费如何？

确认账户具体信息发现，这些账户很多根本没有投放商品！

于是回溯数据获取逻辑，发现投放商品数的字段同时也代表着投放目标是「直播间」而非「商品」投放直播间的数量。这是一个很明显的逻辑错误，如果使用这个数据，那得出的结论也将不置信。

随后针对该问题对数据进行了清洗，清洗之后重新进行分层计数透视，得到的数据如下（数据已进行脱敏）：

投放N个商品	账户数	账户数占比
0-1	C	90%+
D-L	E	-
M-N	O	-
P-Q	R	-
S-T	U	0.01%
V-W	X	0.00%
Y-Z	AA	0.00%
BB-CC	DD	0.00%
40+	FF	0.00%
总计	II	100.00%

依旧非常符合预期，90%+ 的账户投放 1 个以内的商品；但同账户投放商品的最大值 40+，且只有一个，这是远小于原数据的。再次确认账户具体信息，投放多个商品的客户售卖促销图书、花卉种子等商品，这也是现实存在的情况。

两次数据的结论看似一致，但是支撑数据的逻辑完全不同。如果仅仅关注预设结论，那么就会错过这些信息。同时产品功能导致出现的逻辑问题，也就被淹没在数据之中了。

学习工具：磨刀不误砍柴工

数据分析不仅仅是看数据，还需要合适的工具和技术来帮助我们进行分析。持续学习和更新工具知识可以提高我们的分析效率，同时，正确地使用工具也可以避免在数据处理和分析过程中出现误差。另外，有效的数据可视化工具可以帮助我们更好地理解数据，并迅速识别异常或趋势。图表、曲线和其他视觉工具不仅可以简化复杂的数据分析，而且可以帮助我们更好地与他人沟通和分享分析结果。

这过程中可能会遇到数据中台基建不完善的情况，此时可以依赖本地分析工具，在 Excel 基础上，可以尝试探索 VBA、自动化工具、PowerBI 套件或 Tableau 等专业数据分析软件的用法，熟练掌握 Python 的也可以使用 pandas 库等。这是一个各显神通的过程，但是无论使用什么工具，掌握的工具越熟练、流程越自动化，效率就能越高。

在此之外，可以不断学习数据可视化的图表用法。这部分将在未来的其他文章中补足。