数据分析的主要方法(1)——业务分析类

本文详细介绍了数据分析的多种方法,包括异常值查找、描述分析、对比分析、公式拆解、路径分析、漏斗分析、归因分析、热力图分析、留存分析、分群分析和分布分析。在异常值查找中,提到了监督和无监督学习算法,如孤立森林和DBSCAN。描述分析、对比分析和公式拆解是理解数据现状和业务表现的关键。路径分析和漏斗分析用于优化用户流程,而归因分析则解决广告效果的功劳分配问题。热力图分析揭示了页面点击分布,留存分析衡量用户参与度,分群分析帮助细化用户群体。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

异常值查找方法

描述分析

对比分析

公式拆解

路径分析

漏斗分析

归因分析

热力图分析

留存分析

分群分析

分布分析


异常值查找方法

1.3\sigma原则局限于对正态或近似正态分布的样本数据。Y 的取值几乎全部集中在(μ-3σ,μ+3σ)区间内,超出这个范围的可能性仅占不到0.3%。如果你有任何数据点超过标准差的 3 倍,那么这些点很有可能是异常值或离群点。

2.箱线图与方差和极差相比,更加不易受极端值的影响,且处理大规模数据效果很好。离群点被定义为低于箱形图下触须(或 Q1 − 1.5x IQR)或高于箱形图上触须(或 Q3 + 1.5x IQR)的观测值。

3.算法类

监督学习的算法适用于正常数据和异常数据都存在且有标签;

无监督学习的算法适用于正常数据和异常数据都存在且没有标签,比如孤立森林(Isolation Forest)——高效的异常检测算法,和随机森林类似,但每次选择划分属性和划分点(值)时都是随机的。在建树过程中,如果一些样本很快就到达了叶子节点(即叶子到根的距离d很短),那么就被认为很有可能是异常点;DBSCAN ——用于把数据聚成组的聚类算法,它同样也被用于单维或多维数据的基于密度的异常检测。基于密度的聚类算法,重点是发现邻居的密度(MinPts)在n维球体的半径ɛ。

半监督学习的算法适用于只有正常数据,没有异常数据。

4.时间序列: 恒定阈值——中心值小范围内波动;动态阈值,移动平均法——由过去n段时间的时序数据计算决定的;STL数据拆解法——加法方式:原始数据 = 平均季节数据 + 趋势数据 + 余项/乘法方式:原始数据 = 平均季节数据 * 趋势数据 * 余项。一般情况下,余项部分的时序数据是平稳分布状态,我们可对余项设置恒定阈值或者动态阈值,如果某个时间节点的分解余项超过设定阈值,则是异常数据。


描述分析

  • 第一步,现状是什么,提取指标数据的具体数值。
  • 第二步,标准是什么,列出参考标准是什么。
  • 第三步,结论是什么,综合现状和标准,得出结论。

对比分析

一方面是纵向比较,即自身和自身进行对比,另一方面是横向比较,即自身和别人进行对比。

纵向对比通常包括环比、同比:

  • 环比就是本期统计数据与上期比较,比如拿2018年9月份的数据和2018年8月份的数据进行对比。
  • 同比指的是本期统计数据和上一周期的同期数据进行比较,比如拿2018年9月份的数据和2017
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值