数据分析思维框架与分析方法总结

最新推荐文章于 2022-08-17 00:56:28 发布

Trisyp

最新推荐文章于 2022-08-17 00:56:28 发布

阅读量3.4k

点赞数 3

分类专栏：数据分析与挖掘文章标签：数据分析

本文链接：https://blog.csdn.net/Trisyp/article/details/117084158

版权

数据分析与挖掘专栏收录该内容

13 篇文章

订阅专栏

一、数据分析思维框架
数据分析就是把定性的事情转变为定量，这样我们就能够更具象化、标准化，能横纵对比，能细化放大，能把复杂的事情简单化。
数据分析就是寻找被量化的现象之间的【关系】。即y=f(x)，找到两个变量之间的关系，找到的关系越多给实践带来的有效手段就更多。
贴合用户认知的建模
数据统计——利用数据体现现象（量化），比如建立数据漏斗（矛盾演化规律）
数据分析——利用数据寻找现象关系，比如区域、矛盾主题和热点之间的关系（热点事件）
特点：定量的非定性的、过去的非未来的、相关的非因果的
在这里插入图片描述
1、明确产品目标
了解市场目标，确定业务背景和分析目标。每项业务都有一个核心的关键指标，一切工作都应当是为了优化这个指标而开展的。要确定这个核心指标，就必须了解业务开展的目的。确定业务指标的一个基本模型——OSM模型：
Objective(业务目标)：用户使用产品的目标是什么？产品满足了用户什么需求？
Strategy (业务策略)：要达成上述目标我们采取的策略是什么？
Measurement(业务度量)：这些策略随之带来的数据指标变化有哪些？

误区：
1）进入取数怪圈：取的数没用或不够，然后取更多的数，进入不停的取数循环=>取数机器。大部分情况下业务方自己也没思路，想先随便拉点数据看看。业务方常用话语：能不能再看看XX数据怎么样？
破局：
1）必须搞清楚业务方的目的是什么，往往业务方想要的数据也不一定真的是他想要的。举例：业务提需求说某某领导想看啥数据，取数口径是经过一个人转述的，往往这种需求是变形的。
2）熟悉业务逻辑，明白数据对于业务的意义是什么。不断提升自己的职业化水平，保持目标思维。
2、感知问题
关注问题的本质
1）直接找最终结果的问题
化解率下降
矛盾积累案件数增加
2）环节上的问题
拆解漏斗和业务环节，比如通过分析矛盾化解数据漏斗，发现每天线上投诉相对于线下投诉的比例增加了30%。
但凡有差异，必有问题，但凡有问题，必要寻找原因。
3）找到最重要，即最和业务结果相关的问题，做优先级排序
确定业务重点，基于最重要的结果对应标准进行排序，思考若解决了这个问题能够对结果带来多大的改善。
3、提出假说
不要煮沸海洋：把所有的可能导致问题的因素全部找出来分析一遍是低效的，也是不可能的。
这就需要用到【假说】的方法：
哪些因素会导致进京访？哪些因素会导致群体访？
有两个提出假说的路径：归纳；演绎
1）归纳式：根据个案进行总结
比如在列举进京访可能的影响因素上，找所有相关业务人员或技术人员进行调研或者头脑风暴，提出可能的因素。
2）演绎式：根据模型进行推演
比如在在列举群体访可能的影响因素上，根据对诉求人历史行为模型的理解进行拆解，而拆解的有效与否就是关于模型的多少和模型的深度。
一般地，我们会结合两种方法，然后得到很多可能与结果相关的因素，然后进行整理并作重要性排序。其实，我们已经得到了很多可能、未经确定、未量化的y=f(x)。

误区：
1）预设立场：仅局限在自己的现存经验和知识去判断，造成很多错误假设或引导，导致找不到真实原因。它是为了证明猜想而去找数据，一个不行就换另一个，直到证明自己的观点正确为止。
破局：
1）验证假设：事先规划验证这个假设需要的数据，若数据不符合假设就会抛弃这个假设.即能够根据客观数据随时抛弃旧假设提出新假设。在这里插入图片描述
4、选择表征
不可被数据量化，就不能被改变。
需要将提出的假说中所选择的变量用数据进行表征。
以矛盾演化为例，到底是什么因素影响到事件的最终恶化。在实践的过程中我们会发现一些常规现象（也可能个例）。如接待分流退回较多、解决的周期较长、解决的不满意度较高等可能是导致恶化比较关键的影响因素。于是，我们可以通过数据定义，构建关系式：x：解决周期；y：事件恶化程度。得到如下关系图：在这里插入图片描述
控制变量：x变量每类样本数量大致一样，且基本属于同一部门或区域，排除其他因素影响。
上图的关系告诉我们——矛盾化解要越快解决越好，不要让诉求人等待周期过长，积累情绪。

时间周期：就是统计范围，如近30天、自然周、截止到当天等。
修饰类型：比较好理解的如矛盾诉求中来访形式，数据来源渠道等。
修饰词：除了维度以外的限定词，如诉求形式中的走访、网上投诉、领导信箱等。来源渠道为和谐、大联动、人民调解等
原子指标：不可再拆分的指标
派生指标：原子指标+修饰词+时间周期就组成了一个派生指标。
备注（选择数据表征元素时需要把握的原则）：
1）选择的数据能够充分代表假说中变量的内涵；
2）选择的数据尽量是用户客观行为数据而非主观态度数据；
3）选择的数据是有被记录或容易获取。
5、收集数据
根据需求提前规划所需数据及有效数据量，已有的数据可直接获取，没有的数据就需要安排工程师规划采集。

误区：
1）大而全：全量采集后无从下手；因为采集周期或数据质量而无法分析；数据冗余过多；
破局：
1）按需采集：按数据重要性、采集难度等进行优先级排序
6、分析验证
确定好x与y的含义和数据后，剩下的分析就变得简单了。可通过数据可视化的方式表现出x与y的关系，直观就能发现其中是否存在有价值的规律。然后通过多组数据进行多次验证，确定关系是否能够复现。
二、数据分析方法
首先介绍下Back & Forth”思维模式，之所以称为思维模式，是相比于分析模式更抽象一层的思考逻辑。
通常具有两大特征：
1、Back，即倒退一步总结，不要停留在事情的表面，从感性认知上升到规律性的总结，总结经验和方法论。
2、Forth往前多迈一步，给出行动指南或具体方案。
这种思维模式被视为一种“讨人喜欢”的语言和信息的组织和表达方式。即使不应用在数据分析方面，用在和领导的汇报和年终总结上，也一样会让你脱颖而出，让领导印象深刻。因为Back意味着补充新的知识、总结新的经验、提供新的视角、揭示新的问题，往往这样的信息带给人的是一种礼物，甚至是惊喜，是一种信息加工后的结果。而Forth就更容易理解了，领导希望看到的是你给出行动建议，而不是提出问题，给别人挑毛病不难，但是给出行动建议才是对方真正需要的。
数据分析的四个模式：
1、描述性分析（Descriptive Analytics），即将已经发生事实用数据表述出来。如集中趋势分析（平均数、众数等）、离中趋势（全距、四分差、协方差等）、相关分析（正（负）相关、相关系数等）、推论统计（显著性差异等）、正态性检验（PP图、QQ图、W检验等）
2、诊断性分析（Diagnostic Analytics），即回答为什么会发生，通常使用数据钻取的手段就可实现。如假设检验（参数检验（U检验、T检验等）、非参数检验（秩和检验、游程检验等））
3、预测性分析（Predictive Analytics），即通过历史数据对未来的趋势进行预测。这个阶段会引入一些高级算法。如回归分析、聚类分析、判别分析、主成分分析、因子分析、时间序列分析、生存分析、典型相关分析、ROC分析等
4、决策建议性分析（Prescriptive Analytics），即通过分析可能影响行为结果的动态指标（或行为）并将指标和结果的关联关系进行量化，从而给出对结果产生最重要影响的指标，以及对应每个指标对结果产生不同影响程度的描述。有了以上这些分析，决策者可以将数据驱动决策真正落地。
1、公式法
所谓公式法就是针对某个指标，用公式层层分解该指标的影响因素。即公式拆解法是针对问题的层级式解析，在拆解时对因素层层分解，层层剥尽。
例如：分析某区县社会矛盾风险点，用公式法分解
社会矛盾 = 物质性矛盾+非物质性矛盾
物质性矛盾 = 住房问题+医疗问题+教育问题+…
住房问题 = 征地拆迁+经济适用房+物业问题+…
征地拆迁 = 宅基地占用+强拆+安置补偿+…
第一层：找到社会矛盾的主要矛盾点，是物质性诉求较多还是非物质性矛盾突出？
第二层：找到物质性矛盾主要问题，是住房问题突出，还是医疗问题更严重？
第三层：分析导致住房问题的因素，是征地拆迁不合理，还是物业不作为？
第四层：分析导致征地拆迁问题突出的原因，是补偿不到位，还是宅基地非法占用？
等等通过对矛盾的逐层拆解，细化评估以及分析的粒度。
2、对比法
对比法就是用两组或两组以上的数据进行比较，是最通用的方法。
孤立的数据没有意义，有对比才有差异。一些直接描述事物的变量，如数量、高度、宽度等。可以通过对比得到比率数据，如增速、效率、效益等指标。
比如用于在时间维度上的同比和环比、增长率、定基比，与竞争对手的对比、类别之间的对比、特征和属性对比等等。对比法可以发现数据变化规律，使用频繁，经常和其他方法搭配使用。
3、象限法
通过对两种及以上维度的划分，运用坐标的方式表达出想要的价值。由价值直接转变为策略，从而进行一些落地的推动。象限法是一种策略驱动的思维，常与产品分析、市场分析、客户管理、商品管理等。
以社会矛盾指数和社会发展指数为例：在这里插入图片描述
象限法的优势：
1.找到问题的共性原因
通过象限分析法，将有相同特征的事件进行归因分析，总结其中的共性原因。例如上面社会矛盾与发展的案例中，第一象限的事件可以提炼出发展快但矛盾尖锐的区县，第二和第三象限可以排除一些矛盾不尖锐的区县；
2.建立分组优化策略
针对投放的象限分析法可以针对不同象限建立优化策略，例如下图RFM客户管理模型中按照象限将客户分为重点发展客户、重点保持客户、一般发展客户、一般保持客户等不同类型。给重点发展客户倾斜更多的资源，比如VIP服务、个性化服务、附加销售等。给潜力客户销售价值更高的产品，或一些优惠措施来吸引他们回归。
在这里插入图片描述
4、二八法
二八法也可以叫帕累托法则，源于经典的二八法则。比如在个人财富上可以说世界上20%的人掌握着80%的财富。而在数据分析中，则可以理解为20%的数据产生了80%的效果需要围绕这20%的数据进行挖掘。往往在使用二八法则的时候和排名有关系，排在前20%的才算是有效数据。二八法是抓重点分析，适用于任何行业。找到重点，发现其特征，然后可以思考如何让其余的80%向这20%转化，提高效果。
例如重点人员分类，若分为ABCDE五类，客户说只关注AB两类，则AB两类的人数总和不能超过20%，A类人数不能超过5%（或者由客户指定）；
再如矛盾内容分类，溧水共出现约208类，其中32个类别的案例数就覆盖了总量的85%以上。
5、漏斗法
漏斗法即是漏斗图，有点像倒金字塔，是一个流程化的思考方式，常用于像新用户的开发、购物转化率这些有变化和一定流程的分析中。在这里插入图片描述
上图是经典的营销漏斗，形象展示了从获取用户到最终转化成购买这整个流程中的一个个子环节。相邻环节的转化率则就是指用数据指标来量化每一个步骤的表现。所以整个漏斗模型就是先将整个购买流程拆分成一个个步骤，然后用转化率来衡量每一个步骤的表现，最后通过异常的数据指标找出有问题的环节，从而解决问题，优化该步骤，最终达到提升整体购买转化率的目的。
整体漏斗模型的核心思想其实可以归为分解和量化。比如分析电商的转化，我们要做的就是监控每个层级上的用户转化，寻找每个层级的可优化点。对于没有按照流程操作的用户，专门绘制他们的转化模型，缩短路径提升用户体验。
还有经典的黑客增长模型，AARRR模型，指Acquisition、Activation、Retention、Revenue、Referral，即用户获取、用户激活、用户留存、用户收益以及用户传播。这是产品运营中比较常见的一个模型，结合产品本身的特点以及产品的生命周期位置，来关注不同的数据指标，最终制定不同的运营策略。
从下面这幅AARRR模型图中，能够比较明显的看出来整个用户的生命周期是呈现逐渐递减趋势的。通过拆解和量化整个用户生命周期各环节，可以进行数据的横向和纵向对比，从而发现对应的问题，最终进行不断的优化迭代。在这里插入图片描述
不过，单一的漏斗分析是没有用的，不能得出什么结果，要与其它相结合，如与历史数据的对比等。
必备分析工具（红色圈）：

三、数据分析其他常见误区

太在意方法和工具，归咎于不会分析方法或工具
不会excel，不知道怎么做透视表等等
知道大概的思路，比如转化率低原因知道，但不会程序和sql，不知道怎么构建量化模型

四、参考网址
http://www.woshipm.com/data-analysis/993953.html
http://www.woshipm.com/data-analysis/3176691.html
http://www.woshipm.com/data-analysis/4369494.html
https://baijiahao.baidu.com/s?id=1622076720200670996&wfr=spider&for=pc