数据分析方法论

对比思维

利用对比分析得出结论

对比分析是数据分析中常用的分析方法之一。没有对比就不能说明 问题,这也是对比分析在数据分析领域经久不衰的原因之一。对比分析 是将两个或两个以上具有可比性的数据进行比较,分析其中差异,以揭 示事物发展规律。

对比分析的作用

       没有对比就不能说明问题。举个例子来说,2020财年淘宝天猫达成 GMV6.589万亿元[1] ,如果没有对比,GMV只是一个数据而已,运营人 员并不知道这个数据代表的业务状况到底如何,业务是增长了呢,还是 衰退了呢?如果对比前三财年的GMV,我们会发现2020财年的GMV是 增长的,这三年业务是稳定上升的。这就是对比分析在数据分析中的作 用,没有对比就不能得到数据结论!

确定对比的对象

   对比的对象可以是自己,也 可以是行业。如果是和自己比,可以通过某段时间的业务平均值、中位 数等统计指标来衡量业务的整体大小;也可以通过变异系数来衡量业务 整体的波动;还可以使用同比、环比等指标来衡量业务的变化趋势。如 果是和行业比较,可以通过行业趋势与业务发展趋势进行对比,以判断 业务发展是否健康;当然也可以和行业标准进行对比,以确定业务发展 是否达到行业标准,进而调整业务发展方向和策略。

如何对比

    对比分析的用途有以下 三种:衡量数据整体大小、衡量数据整体波动、衡量数据变化趋势。面 对不同的场景,对比分析选择的维度和指标也不尽相同。

1. 衡量数据整体大小

     如图7-2所示,对于数据整体大小的衡量,可以将业务数据与某段 时期内的平均值、中位数、目标值做比对,也可以和行业标准做对比。

2. 衡量数据整体波动

     数据的波动类型,其可以分为周期性波动、 业务内部因素引起的数据波动、外部因素引起的数据波动、数据传输问 题引起的数据波动以及其他意外因素引起的数据波动。 数据周期性波动、内部因素和外部因素引起的数据波动属于正常波 动,对于这三类波动的衡量,可以用不同时期内的变异系数、方差、标 准差等进行对比。

3. 衡量数据变化趋势

     对于数据变化趋势的衡量,可以考虑从时间和空间两个维度展开, 从时间维度可以考虑横向比较、纵向比较、同比、环比、定比等,从空 间维度可以考虑从产品、用户、区域等多个层面进行对比分析。

1.时间维度

      横向对比是相同周期不同阶段的比较,可以是日、月、季、年的同 比、环比等。例如,对比“双十一”大促期间的日GMV就是横向对比。

    纵向对比是相同周期内不同区域、不同类目、不同商家、不同客户 群体的比较。例如,对比各品类“双十一”期间的成交额就是纵向对比。

      同比用于观察长期的数据,是将本期数据与上一年同期数据进行比 较。

     环比用于观察短期数据,是将当前周期数据与上一周期数据进行比 较,可以是本月数据与上月数据的对比、本周数据与上周数据的对比、 当年11月数据与当年10月数据的对比。

        定比是将当前周期数据与固定周期数据进行比较。定比增长率的计 算方式与同比增长率、环比增长率相似

2.空间维度

在空间维度进行对比,可以考虑从产品、用户、地 区等维度展开分析。对于产品来说,可以考虑具有可比性的同类产品的 比较,还可以将同一个产品的不同版本的数据进行比较;对于地区来 说,可以对比同一指标在不同地区的表现;对于用户来说,可以对比不 同层级的用户,也可以将同类型的用户分为两组进行A/B试验。

    (1)在产品层面,可以通过与相似产品进行对比以分析次日留存 率是否正常。例如,可以对比抖音和快手用户的次日留存率,发现快手 用户的次日留存率略高于抖音,这时抖音可以推出某些促活活动,从而 提高次日留存率。

    (2)在地区层面,可以将关键指标拆分到不同的地区,然后分析 该指标在不同地区的表现。例如,可以将11月份的GMV拆分到各个地 区,分析各个地区对于GMV的贡献,找出可提升GMV的方案。

    (3)在用户层面,可以将用户分组,对比不同组别用户在某一指 标下的差异;也可以选定一个用户群体,比较该用户群体在不同日的留 存率表现,即同期群分析。例如,根据用户的付费信息将用户分为高付 费用户、中等付费用户、低付费用户及零付费用户,对比各个组别的付 费率。         (4)用户和产品交叉分析也是常用的分析思路,通常来说就是A/B 试验,比如选定某一群体的用户,将其分为两组,分别给他们展示不同 颜色的网页,对比其点击率,以评判哪种颜色的网页更受欢迎。

4.对比分析的可比性原则

对比分析需要坚持可比性原则,即对比对象相似,对比指标同质。

(1)坚持对比对象相似的原则,就是说对比的对象要是同类型 的,属于同一领域,例如,抖音和快手相比,淘宝和拼多多相比。如果 将淘宝的GMV与B站的GMV相比,可能就不太合适!

(2)坚持对比指标同质的原则,包括指标口径相同、指标计算方 式一样和指标计量单位一致。例如,数据分析师不能用抖音2020年的平 均用户留存率与快手2019年的平均用户留存率相比,因为指标口径不 同;同样地,数据分析师也不能用2020年抖音的用户留存率与流失率进 行比较,因为指标计算方式不一致;另外,指标的单位也是容易忽略的 点,淘宝1月的GMV是1.98亿元,2月的GMV是23800万元,1.98和23800 之间没有可比性,只有统一了单位之后,这两个月的GMV才具有可比 性。

5.对比分析的具体方法

对比分析用途广泛,涵盖了很多其他分析方法,如漏斗分析、同期 群分析及A/B试验等。

什么是A/B试验

     A/B试验可以通过控制变量对比同一App不同版本的打开率、对比 相同网页不同颜色的按钮的点击率。从本质上来讲,A/B试验属于试验 范畴,通过对用户进行随机分组,根据单一变量的原则为每一组用户分 配一个试验方案,在相同的时间维度观察用户的反应以确定最佳方案。

A/B试验能解决什么问题

1. 评估方案优劣,选择最优方案

    A/B试验的主要目的之一是判断两个方案中哪个更好,以辅助运营 人员选择最优方案,达到最好的效果。以网页皮肤选择为例,通过A/B 试验确定用户对网页皮肤的偏好,以提升用户点击率,降低用户跳出 率。

2. 计算ROI,提升收益

   通过A/B试验选择最优方案的终极目的还是提升收益、量化收益, 计算投入产出比(ROI)也是数据分析师需要掌握的技能。对于不同的 方案而言,成本都是可以直接计算出来的;而对于收益,则需要计算试 验组与对照组收益的差值。

A/B试验的流程

1. 设定指标

进行A/B试验的第一步是确定比较指标,选取哪些指标进行对比需 要根据试验的目的来决定。A/B试验中的指标可以分为三类,即核心指 标、辅助指标和反向指标,在进行A/B试验时建议同时选择三类指标作 为试验指标。

2. 创建变量

    选定指标之后,就需要进行变量的创建,即对网页的元素进行更 改,将之前绿色的皮肤改为黄色的皮肤。这部分工作由前端配合完成。

3. 生成假设

    有了变量之后,可以基于经验对试验结果做出假设。例如,可以假 设用户更喜欢改版后的网页。

4. 确定分流(抽样)方案

     如何分配流量、分配多少流量关系到A/B试验的成败,尽量选择同 质性较高的用户,也就是各个维度特征较为相似的用户进行测试,同时 需要确定分流比例和其他分流细节。国内外很多开源网站都提供了A/B试验样本量计算器,evanmiller是 其中的一种。

5. 确定试验时长

    试验时长也是A/B试验的重要环节,即这个A/B试验要持续多久。 试验时长不宜过短,否则参与试验的用户几乎都是活跃用户。试验时间 的长短和所需样本量是密切相关的。

6. 收集数据

    上面的准备步骤做完之后,就可以针对指定区域的假设,收集相对 应的数据用于A/B试验分析了。

7. 分析数据

最后就是基于统计学基础理论,分析数据结果,判断两个版本之间 是否存在统计学上的显著性差异。统计学分析也可以借助evanmiller进 行

6.A/B试验常见的误区

1. 忽略统计学意义

    以网页皮肤优化的例子,A组的点击率是39.13%,B 组的点击率仅为36.86%,是否可以直接说A组的效果优于B组,用户更 喜欢A组的皮肤颜色呢?事实上,不能直接得出这个结论,因为缺少了 关键的步骤——假设检验。假设检验的目的之一是排除运气、抽样误差 等随机因素对于试验结果的误判,即通常所说的Ⅰ类错误;目的之二是 排除由于漏报对于试验结果的影响,即Ⅱ类错误。为了避免Ⅰ类错误、 Ⅱ类错误带来的误判和漏报,需要对试验结果进行严格的假设检验,类 似于留存率、渗透率等率值相关指标可以采用Z检验或卡方检验(非正 态情况下),而人均时长、用户购买量等指标可以使用t检验。

2. 忽略新奇效应对于试验的影响

     新奇效应也是A/B试验中常见的误区之一,思考以下两个问题。试 验所需的样本量决定了试验的时间长短,为了尽快得出结论是否可以分 配较大流量使得试验尽快收集到所需样本量?或者按照正常的流量分 配,达到样本量之后立即停止试验? 答案是否定的,面对以上两种情况需要考虑是否因为新奇效应的存 在给结果带来了一定的影响。

   在A/B试 验中,试验早期用户可能会因为新的改动而产生好奇,从而带来点击率 的提升,但是随着试验时间的增加,这个点击率会趋近于用户的真实点 击水平。因此,数据分析师需要等到观测指标平稳之后才能停止试验, 以避免新奇效应对于试验结果的影响

3.以偏概全——试验周期没有覆盖产品高低频用户

    在流量分配的时候需要保证对照组和试验组的用户具有同时性、同 质性、均匀性和唯一性。换句话说就是需要将用户属性相近的用户同时 分配到A组或B组中且同时进行试验。

4. 随意切割试验流量比例而造成辛普森悖论

    辛普森悖论是指在某个条件下的两组数据,分别讨论时都会满足某 种性质,可是一旦合并考虑,却可能导致相反的结论。

5. 设计正交试验,解决多个试验同时进行时流量分配的问题

  1)正交 流量正交可以让业务关联度小的试验有足够的流量同时进行,实现 流量的高可用性。正交一般情况下是对于不同试验层来说的,将上一层 的流量随机打散到下一层的试验中,使得用户再进入其他试验时是均匀 分布的,而不是集中在某一块区域。

  2)互斥 流量互斥可以让关联度较大的试验分开进行,避免相互影响,从而 保证结果的可信度。流量互斥一般情况下是对于同一试验层来说的,在 同一试验层的几个策略中同一用户只能进入一个试验策略中。很多情况 下,活动整体的效果并不等于各个子活动的叠加效果,有时候子活动之 间有着相互放大的作用,使得1+1>2;而有的时候,子活动在本质上是 相同的事情,从而使得1+1<2。

    因此,要量化一个活动的整体效果时,就需要一个贯穿所有活动的 对照组,在A/B试验系统中称为贯穿层。与贯穿层相对应的就是试验 层,试验层又可以根据活动需要分为不同的子试验层.

6.A/B试验背后涉及的统计学原理

   A/B试验本质上是假设检验的过程,在试验之初需要产品经理、运 营人员、数据分析师和前后端工程师相互配合,共同完成试验组和对照 组的配置,数据分析师基于对照组和试验组提出某种假设,然后收集试 验组和对照组的数据,通过假设检验验证两组数据是否在统计学上存在 差异。

    试验组和对照组是数据分析师从全量样本中抽出来的样本,只是总 体用户的一小部分。但数据分析师关心的并不是这一小部分用户,而是 产品改版对于全量用户的影响,这就涉及统计学中的中心极限定理和大 数定律。只要抽样次数足够多,样本均值的抽样分布趋近于正态分布, 样本就能在一定程度上代表总体。因此,A/B试验的价值之一就是具有 先验性,能够通过小部分样本验证新方案对于用户的影响,让数据分析 师在事情尚未发生之前通过手头有限的资源和信息预估新方案的效果, 以避免直接全量上线新方案造成用户损失等情况发生。

6.1.什么是抽样

     抽样是A/B试验的核心步骤之一,因为对于某一个新上的功能,数 据分析师不可能统计到每一个用户的接受程度,所以只能从全量用户中 抽取一部分用户作为代表进行研究,以部分用户对于新功能的接受程度 代表总体对其接受程度。

6.2.样本为什么可以代表总体

样本在一定程度上是可以代表总体的,在统计学上有几个著名理论 支撑了这一结论:①大数定律;②中心极限定理;③3δ原则。   

6.2.1. 大数定律 在统计学中,大数定律是描述多次重复试验结果的定律。大数定律 是指在单次试验中,随机事件可能发生也可能不发生,但随着试验次数 的增加,随机事件发生的频率趋于一个稳定值,即该事件发生的概率。   

6.2.2. 中心极限定理 中心极限定理(Central Limit Theorem)是对抽样分布的描述,该 定理指出了大量随机变量之和近似服从正态分布的条件,其内容是从总 体抽取样本容量为n的随机样本,当样本容量足够大时,样本均值的抽 样分布近似为正态分布。

6.2.3. 3δ准则  

在A/B试验中,只要样本容量足够大,无论是样本均值还是样本比 率的分布都可以近似为正态分布。在正态分布中δ代表标准差,μ代表均 值。x=μ即图像的对称轴。无论A/B试验研究的对象是样本均值还是样本 比率,对于每一次抽样,其值几乎都会落在(μ-3δ,μ+3δ),这就是重要 的3δ原则。3δ原则描述了对于服从正态分布的样本进行抽样时,样本Y 的概率分布范围,Y的数值分布如下:

(1)Y值分布在(μ-δ,μ+δ)中的概率为0.6826;

(2)Y值分布在(μ-2δ,μ+2δ)中的概率为0.9544;

(3)Y值分布在(μ-3δ,μ+3δ)中的概率为0.9974。 可以认为,Y的取值几乎全部集中在(μ-3δ,μ+3δ]区间内,超出这个 范围的可能性不到0.3%。 统计学上,通常把±3δ的误差作为极限误差。对于正态分布的随机 误差,落在±3δ以外的概率只有0.27%,它在测量中发生的可能性很小, 故存在3δ准则

分群思维

什么是用户分群

用户分群是按照用户生命周期,将用户分成不同阶段的用户,从而 采取不同的运营策略对其进行运营;当然,数据分析师也可以根据用户 的活跃度、付费等特征对用户进行群组的划分,从而对不同群组的用户 采取有针对性的运营策略。

    在用户的不同生命周期,运营的策略各不相同,以用 户生命周期作为划分节点是最简单的用户分群思维的体现,如图8-1所 示。

不同阶段的目标

      1)在获客阶段,运营人员的目标是希望足够多的优质用户能够下载产 品,以获得足够大的用户基数,因此通常新客下载激活产品后会获得部 分新手福利。

      2)在用户激活阶段,运营人员的目标是下载产品的用户能够注册自己 的账号并且持续使用产品,因此用户在激活产品后会得到额外的新手奖 励,并且产品会有相应的新手引导功能帮助用户熟悉产品的使用,以促 使用户留存。

   3)在用户留存阶段,运营人员希望足够多的活跃用户能够长期活跃并 且将其转化为产品的忠实用户,最终留存下来为产品付费。因此,这个 阶段运营人员会持续开展各类运营活动,固化用户使用习惯,使用户对 产品感兴趣,进而引导用户付费。

  4)在用户付费阶段,将留存下来的用户转化为付费用户是主要目标, 运营人员通常使用不同的优惠策略或者营销手段转化用户,从而达到提 高营收的目的;对于已经付费的用户,则需要持续开展各类运营活动, 从而促使用户持续付费。

双层金字塔结构的用户分层

     对于电商类产品,既需要优质商家提供物美价廉的商品,也需要消费者 在电商平台购买商品;对于类似于B站、抖音、快手等平台来说,既需 要优质的内容创作者,又需要直播大赏的忠实粉丝。由上可见,同时优 化两个不同的用户群体是大部分产品的目标,双层金字塔结构的用户分 层也是普遍存在的。

为什么要分群

1. 用户分群是用户精细化运营的基础

    对用户进行分群,对于不同阶段、不 同特征的用户采取不同的运营策略能够获得最大的投入产出比。

2. 用户分群更能体现用户差异化

    很多情况下,数据分析师会通过平均值去衡量群体水平,平均值虽 然方便,但是很多情况下并不能反映最真实的业务形态,而通过用户分 层比较不同层级的差异更能说明业务问题。

用户分群方法论

1. 结构分析

    用户分群的方法之一是结构化分析,该方法是用户分群最基础的方 法。结构化分析是通过数据分箱生成数据标签,然后通过统计各个标签 的分布情况完成数据统计分析以辅助运营人员进行决策。当然,如果数 据标签体系做得足够好,直接运用数据标签计算某些指标的分布也可完 成结构化分析。

2. 同期群分析

    同期群分析是用户分群的另一种方法,该方法是一种横纵结合的分 析方法,在横向上分析同期群体随着时间推移而发生的变化,在纵向上 分析在生命周期相同阶段的群组之间的差异。

3. RFM模型

    RFM模型是典型的用户分群模型,主要应用于用户付费分群中。该 模型根据用户最近一次消费(Recency)、消费频率(Frequency)及消 费金额(Monetary)三个维度将用户划分为8个不同的群体,以评判每 一个群体的价值,从而对不同的群体采用不同的运营策略,以达到最大 的投入产出比。同时,RFM模型生成的用户特征可以通过标签的形式保 存到数据标签库中,以完善用户付费标签,使得之后的分析更加方便。

4. K-Means算法

   除了结构化分析、同期群分析及RFM模型,还可以运用机器学习算 法,如K-Means等,基于用户的历史数据对用户进行分群。K-Means算 法也可以基于RFM模型输出的特征进行进一步计算,从而得到用户分群 结果

5.分群思维实例结构分析

5.1 结构化分析是什么

   结构化分析就是用户分箱,即将圈定的用户群体按照组成成分或付 费金额等维度划分区间对其进行分组,而后讨论各个组之间的差异。

     近七天的DAU持续走低,看到这个现象之后运营人员想要确定 DAU持续走低的原因,这时候就可以用到结构化分析,即按照DAU的 组成成分分析,确定到底是哪一部分的人数减少。如图8-5所示,笔者 将DAU拆解成新用户和老用户之后,发现这七天新用户占比基本不变, 而老用户占比持续减少。老用户占比持续走低是DAU持续下降的原因, 说明用户黏性不好,可以告诉老板应该推出一些激励活动刺激用户,提 升用户黏性

营收分析的结构化

   在营收付费方面结构化分析更加常用,因为经常存在20%的用户贡 献了80%收入的情况,所以对用户进行分箱处理,进而进行结构化分析 是非常重要的,最终可以朝着实现用户分层运营的方向努力。如图8-6所示,通过统计结果,我们可以发现5%的头部用户贡献了 75%的营收,和“二八法则”描述的情况非常相似,只不过这个例子中头 部用户的购买力更强!

某段时间业务营收数据出现下滑的情况, 数据分析师就可以通过结构化分析确定下滑的原因并给出一些合理的意 见和建议。如图8-7所示,通过结构化分析,数据分析师可以发现营收 下降的原因是中R用户数量出现下滑,提升中R用户数量是增加营收的 关键

5.2 如何更加高效地做结构化分析

   在做监控报表之前,数据分析师首先需要确定研究对象,到底是以 人还是货或者订单为研究对象;其次确定监控指标,即是要研究用户活 跃度还是用户付费率或者其他指标;再次根据业务含义对数据进行分箱 处理,对用户打上分类标签;最后选取合适的数据维度对不同层级的用 户进行监控,沉淀为一张张的报表。

最终结构化分析还是回归到数据报表,遇到问题时就不需要临时取 数,也不需要额外占用其他时间去分析了。从另一个层面来说,结构化 分析是一种分析方法,更是数据指标体系和数据标签体系的一环,只要 数据指标体系做得足够好,数据分析师的临时取数需求就能变少。不难 发现,其实数据分析的大多数方法论都是用一组有逻辑的指标,梳理清 晰的标杆,长期监控业务变化,从而快速定位业务问题,得出结论。

6.同期群分析

    同期群分析解读用户生命周期,剖析真实用 户行为和价值

6.1 同期群分析是什么

   同期群分析是一种横纵结合的分析方法,在横向上分析同期群随时 间推移而发生的变化,在纵向上分析在生命周期相同阶段的群组之间的 差异。对用户所分的群组可以是同一天注册的用户,也可以是同一天登 录的用户,还可以是同一天第一次发生付费行为的用户,要观测的指标 可以是这群用户在一定周期内的留存率、付费率等。举例来说,分 析“70后”“80后”“90后”在20岁、30岁、40岁、50岁的收入各是多少;分析每一天的新注册用户在之后N天的留存率等。

   笔者以每天注册的新用户作为一个群体,即以一天为周期对用户进 行分群,观察每一个群体在后续N天的留存变化情况。

   横轴是周期,以一天为一个周期,分析从一个周期到七个周期的客 户留存率;纵轴是同期群,以一天来划分不同的分组,每一个日期都确定一个 同期群

   有了同期群,数据分析师就可以从横向和纵向进行比较。从横向 上,数据分析师可以看到同一个用户群在之后N天的留存率变化;在纵 向上,数据分析师可以看到不同群组在第N天后的留存率,可以比较各 群组用户的黏性。经过分析发现,3月8日注册的新用户增加了30%左 右,但是这一批用户的留存率与其他用户比较却低了10%左右,说明免 费注册用户的黏性低,忠诚度不如付费注册的用户。

6.2 做同期群分析的意义

   1. 可细分用户,实现精准运营,提高用户留存率

    同期群分析可以实现对用户的细分,比较不同细分用户在后续一段 时间的变化趋势;同时,同期群分析也对处于不同生命周期的用户进行 干预和管理。例如,在用户即将流失的节点开展运营活动将用户召回; 同期群分析是结构化分析的进一步延伸,可以使分析结果更加精确,更 能反映实际情况。

2. 可进行横纵向结合比较,量化同一群体的流失率变化情况以及不 同群体的流失率差异

   从横向上看,数据分析师可以分析用户行为的生命周期。随着时间 的增加,用户留存率下降,最终会趋于一个稳定值,达到这个稳定值的 周期就是用户流失周期,这就是著名的拐点理论。这个稳定值就代表着 新进用户留存下来的比例,这些最终留下来的用户无疑就是忠实粉丝 了。

    从纵向上看,数据分析师可以分析不同群体在相同生命周期的留存 情况,进而比较不同用户群的留存率,分析用户黏性。如果是买量用 户,还可以根据已有的用户黏性数据,选择合适的买量用户。

3. 可监控真实的用户行为、衡量用户价值,有助于有针对性地制定 营销方案

   通过前面的分析可知,3月8日免费开放注册,使用户数量得到了很 大提升,但是用户留存率低、黏性差;相比之下,付费注册的用户,其 留存率一直很稳定。如图8-11所示,通过同期群分析,数据分析师就可 以清晰地看到用户的真实行为趋势,免费用户一旦注册完,之后的留存 率、活动参与率就会变低,运营人员就需要针对这一情况,开展一系列 的营销活动来促使用户活跃,提升免费用户的留存率。

6.3 数据分析师如何快速地做同期群分析

   同期群分析是数据分析中常用的方法,Python、Excel、SQL等工具 都可以实现同期群分析,但在实际工作中同期群分析经常以报表的形式 呈现,从而实现对业务指标的监控。

7. RFM模型与K-Means算法介绍

7.1 RFM模型

RFM模型是美国数据库营销研究所提出的用户分群模型,如图8-12 所示,最近一次消费(Recency)、消费频率(Frequency)、消费金额 (Monetary)是该模型的三个重要指标。

R、F、M三个指标分别代表了用户的忠诚度、活跃度及付费情况, 根据R、F、M的数值,对每个维度进行一次二分,可以将用户分为八个 类别。

重要价值用户:R高、F高、M高,该类用户无论是忠诚度、活跃度 还是付费金额都是极高的,是为产品创造营收的主要用户群体。

重要召回用户:R高、F低、M高,该类用户忠诚度和付费金额较 高,但是付费频率(消费频率)低,应辅以适当的运营活动,提高用户 付费频率。

重要发展用户:R低、F高、M高,该类用户忠诚度不够,需要加大 力度发展和转化。

重要挽留用户:R低、F低、M高,该类用户忠诚度不够且付费频率 低,是比较容易流失的用户群体,应当重点运营以防用户流失。 除以上类别外的其余四种类别,这里就不再一一列举说明。在实际 的工作场景中,数据分析师可以根据自己的需求,将用户分为N个不同 的群组。

7.2 K-Means算法

K-Means是一类迭代求解的算法,该算法需要事先选定K个聚类中 心,依次计算每个样本与各个聚类中心的距离,并将样本分配到距其最 近的聚类中心,不断迭代直到聚类中心不再发生变化。K-Means算法运 行速度快,能够处理大量数据,但是数据分析师需要事先确定K的数 值,K值确定得是否合适关系到模型效果的好坏。

K的大小一般使用三个指标来确定。

1)卡琳斯基-哈拉巴斯指数

    卡琳斯基-哈拉巴斯指数(Calinski-Harabaz Index)是簇间离散程度 与簇内离散程度之比,它通过评估簇间方差和簇内方差来计算得分。基 于聚类的目的,数据分析师希望簇内距离越小越好,簇间距离越大越 好,因此卡琳斯基-哈拉巴斯指数越大越好,其值越大,代表着簇内越 紧密,簇间越分散,即更优的聚类结果。

   2)轮廓系数

   聚类是按照簇内差异小、簇间差异大的原则将样本聚到不同的簇中 的。轮廓系数(Silhouette Coefficient)是衡量聚类效果的指标。轮廓系 数的取值范围为[-1,1],其值越趋近于1,则簇内差异越小,簇间差异越 大,即内聚度和分离度都相对较优;而轮廓系数趋近于0时,则代表簇 间差异极小。因此,数据分析师应当选择轮廓系数最大时所对应的K 值

3)簇内平方和

     K-Means算法的终极目的是求解能够让簇内平方和最小的质心,质 心不断变化的过程也是簇内平方和不断缩小的过程。簇内平方和越小, 说明聚类效果越好。通过簇内平方和求解最佳聚类数K值的方法也称 为“手肘法”,当K值接近真实聚类数时簇内平方和的下降程度会骤减并 随着K值的增大而趋于平缓,而簇内平方和与K值之间的关系图形状极 像手肘,肘部对应的K值就是数据的真实聚类数。

相关思维

  相关思维也是数据分析中较为常用的分析思维。在数据分析师日常 的工作中,经常需要探究两个或者多个变量之间的相关性。但是相关性 并不等于因果性,因此基于相关性,数据分析师还会开展一系列的因果 性分析。

相关性分析与相关系数

   两变量的相关关系有三种,即正相关、负相关、不相关。假设有两 个变量x和y,假如y随x的增大而增大,那么x和y呈现正相关关系;如果y 随x的增大而减小,那么x和y呈现负相关关系;如果x的变化对于y没有 明显影响,那么这两个变量不相关。衡量两个变量相关程度的指标是相 关系数。一般用字母r表示,其值在-1到1之间。 当r>0时,两变量之间呈现正相关关系;当r=0时,两变量之间无线 性相关关系;当r<0时,两变量之间呈现负相关关系。 对于正相关和负相关关系来说,其相关系数r的范围分别是(0,1]和 [-1,0),对于这两个区间还可以进一步地细分,细分结果如表9-1所示。

常用的三种相关系数

1. 皮尔逊相关系数

   皮尔逊(Pearson)相关系数也称为积差相关系数,用于度量两个变 量x和y之间的线性相关程度。在正式介绍皮尔逊相关系数之前,我们有 必要先了解协方差的概念。协方差表示两变量总体的误差,通俗易懂的 解释就是两个变量x,y在变化过程中是同向的还是反向的。x变大,y也 变大,此时协方差为正;x变大,同时y变小,此时协方差为负。其计算 公式如公式(9.1)所示

2. 斯皮尔曼相关系数

   斯皮尔曼(Spearman)相关系数是一种秩相关系数。“秩”可以理解 成一种顺序或者排序。该系数与皮尔逊相关系数类似,只不过把变量x,y 的坐标换成各自的秩,即变量x,y的等级。斯皮尔曼相关系数是通过对 两个等级变量x,y作差进行计算的,其本质是等级变量之间的皮尔逊相关 系数。因此斯皮尔曼相关系数也称为“等级差数法”,它是一种无参数的 检验方法,即与数据分布无关。对于样本容量为n的样本,n个原始数据 被转换成等级数据,则其相关系数计算公式如公式(9.3)所示,di为两 个等级变量x,y的差[7]。

   斯皮尔曼相关系数的适用条件不像皮尔逊相关系数那么严格,其适 用条件如下:

(1)不需要考虑两变量x, y总体的数据分布及样本量大小。

(2)两变量x, y的观测值是成对的等级数据,或者是由连续变量观 测值转换而来的等级数据。

3. 肯德尔相关系数

   肯德尔(Kendall)相关系数也是一种秩相关系数,是用于反映分类 变量的相关性的指标。对于样本容量为n的样本,其数据点对分别为 ,那么一共有对样本对,然后 看每一对中x,y的观测值是否同时增大(或同时减小)。比如,考虑点 ,,可以计算乘积是否大于0,如果大于 0,则说明x, y同时增大或者同时减小,称这两点为协同(Concordant) 点,否则为不协同(Disconcordant)点。如果协同点数多一些,两变量 更加正相关一些;如果两变量不协同点数多一些,则两变量更加负相关 一些;如果既不正相关,也不负相关,则不相关[7]。 肯德尔相关系数的取值范围是-1~1,当其值等于1时,表示两随机 变量拥有一致的等级相关性;当其值为-1时,表示两随机变量拥有相反 的等级相关性;当其值等于0时,表示两随机变量是相互独立的[7]。肯德 尔相关系数适用于两变量x,y为有序分类的情况。

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值