目录
异常值查找方法
1.原则:局限于对正态或近似正态分布的样本数据。Y 的取值几乎全部集中在(μ-3σ,μ+3σ)区间内,超出这个范围的可能性仅占不到0.3%。如果你有任何数据点超过标准差的 3 倍,那么这些点很有可能是异常值或离群点。
2.箱线图:与方差和极差相比,更加不易受极端值的影响,且处理大规模数据效果很好。离群点被定义为低于箱形图下触须(或 Q1 − 1.5x IQR)或高于箱形图上触须(或 Q3 + 1.5x IQR)的观测值。
3.算法类:
监督学习的算法适用于正常数据和异常数据都存在且有标签;
无监督学习的算法适用于正常数据和异常数据都存在且没有标签,比如孤立森林(Isolation Forest)——高效的异常检测算法,和随机森林类似,但每次选择划分属性和划分点(值)时都是随机的。在建树过程中,如果一些样本很快就到达了叶子节点(即叶子到根的距离d很短),那么就被认为很有可能是异常点;DBSCAN ——用于把数据聚成组的聚类算法,它同样也被用于单维或多维数据的基于密度的异常检测。基于密度的聚类算法,重点是发现邻居的密度(MinPts)在n维球体的半径ɛ。
半监督学习的算法适用于只有正常数据,没有异常数据。
4.时间序列: 恒定阈值——中心值小范围内波动;动态阈值,移动平均法——由过去n段时间的时序数据计算决定的;STL数据拆解法——加法方式:原始数据 = 平均季节数据 + 趋势数据 + 余项/乘法方式:原始数据 = 平均季节数据 * 趋势数据 * 余项。一般情况下,余项部分的时序数据是平稳分布状态,我们可对余项设置恒定阈值或者动态阈值,如果某个时间节点的分解余项超过设定阈值,则是异常数据。
描述分析

- 第一步,现状是什么,提取指标数据的具体数值。
- 第二步,标准是什么,列出参考标准是什么。
- 第三步,结论是什么,综合现状和标准,得出结论。
对比分析
一方面是纵向比较,即自身和自身进行对比,另一方面是横向比较,即自身和别人进行对比。
纵向对比通常包括环比、同比:
- 环比就是本期统计数据与上期比较,比如拿2018年9月份的数据和2018年8月份的数据进行对比。
- 同比指的是本期统计数据和上一周期的同期数据进行比较,比如拿2018年9月份的数据和2017

本文详细介绍了数据分析的多种方法,包括异常值查找、描述分析、对比分析、公式拆解、路径分析、漏斗分析、归因分析、热力图分析、留存分析、分群分析和分布分析。在异常值查找中,提到了监督和无监督学习算法,如孤立森林和DBSCAN。描述分析、对比分析和公式拆解是理解数据现状和业务表现的关键。路径分析和漏斗分析用于优化用户流程,而归因分析则解决广告效果的功劳分配问题。热力图分析揭示了页面点击分布,留存分析衡量用户参与度,分群分析帮助细化用户群体。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



