数据分析笔记

一、什么是数据分析

百度百科定义,数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。

在实际应用中,数据分析可帮助人们作出判断,以便采取适当行动。

 

Why-What-How 思维模型

1.Why:为什么要做数据分析

数据分析是为了能以量化的方式来分析业务问题并得出结论。

2.What:什么是数据分析

数据分析的本质是抓住「」与「不变」。

3.How:怎么进行数据分析

任何数据分析都是「细分,对比,溯源」这三种行为的不断交叉。

4.How:数据分析如何落地

结合业务场景和实际工作落地。

 

二、数据分析的作用

数据分析的目的是把隐藏在一大批看来杂乱无章的数据中的信息集中和提炼出来,从而找出所研究对象的内在规律。在实际应用中,数据分析可帮助人们做出判断,以便采取适当行动。数据分析是有组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升有效性。例如设计人员在开始一个新的设计以前,要通过广泛的设计调查,分析所得数据以判定设计方向,因此数据分析在工业设计中具有极其重要的地位

企业中

1.现状分析

第一,企业现阶段的整体运营情况,通过各个经营指标的完成情况来衡量企业的运营状态,增长or减少,以及程度。

第二,企业各项业务的构成,了解企业各项业务的发展及变动情况,对企业运营状态有更深入的了解。

现状分析一般通过日常通报来完成,如日报、周报、月报等形式。

2.原因分析

原因分析,主要分析确定业务变动的具体原因。例如2020年11月运营收入环比下降5%,是什么原因导致的呢?是各项业务收入都出现下降,还是个别业务收入下降引起的?是个地区业务收入都出现下降,还是个别地区业务收入下降引起的?这就需要原因分析,确定收入下降的具体原因,对运营策略做出调整与优化。

原因分析一般通过专题分析来完成,根据企业运营情况选择针对某一现状进行原因分析。 

3.预测分析

对企业未来发展趋势作出预测,为制定企业运营目标及策略提供有效的参与决策依据,以保证企业的可持续健康发展。例如ltv预估,今年疫情期间国外短视频软件使用凸增,预估自然、投放渠道用户增量,以及未来一段时间内带来的收入。

预测分析一般通过专题分析来完成,通过在制定企业季度、年度等计划时进行。 

 

三、数据分析的分类

4.1 统计学分类

在统计学领域,数据分析划分为描述性数据分析、探索性数据分析以及验证性数据分析。

  1. 描述性 
  2. 探索性 探索性数据分析侧重于在数据之中发现新的特征
  3. 验证性 而验证性数据分析则侧重于验证已有假设的真伪证明。

描述性数据分析属于初级数据分析,常见的分析方法有对比分析法、平均分析法、交叉分析法等。而探索性数据分析以及验证性数据分析属于高级数据分析,常见的分析方法有相关分析、因子分析、回归分析等。

 

四、数据分析的步骤

数据分析过程主要包括6个既相对独立又互有联系的阶段。它们是:明确分析目的和思路、数据收集、数据处理、数据分析、数据展现、报告撰写等6步。

1、明确分析目的和思路

首先要弄清楚分析的对象是什么,要达成怎样的目的,不能陷于为了分析而分析。然后,要熟悉行业和业务,透彻的理解分析的目的,构建起分析的角度和体系。

2、数据收集

数据收集是按照确定的数据分析框架,收集相关数据的过程,它为数据分析提供了素材和依据。这里所说的数据包括第一手数据与第二手数据,第一手数据主要指可直接获取的数据,第二手数据主要指经过加工整理后得到的数据。一般数据来源主要有以下几种方式:

(1)数据库

每个公司都有自己的业务数据库,存放从公司成立以来产生的相关业务数据。这个业务数据库就是一个庞大的数据资源,需要有效地利用起来。

(2)公开出版物

可以用于收集数据的公开出版物包括《中国统计年鉴》《中国社会统计年鉴》《中国人口统计年鉴》《世界经济年鉴》《世界发展报告》等统计年鉴或报告。

(3)互联网

随着互联网的发展,网络上发布的数据越来越多,特别是搜索引擎可以帮助我们快速找到所需要的数据,例如国家及地方统计局网站、行业组织网站、政府机构网站、传媒媒体网站、大型综合门户网站等上面都可能有我们需要的数据。

(4)市场调查

进行数据分析时,需要了解用户的想法与需求,但是通过以上三种方式获得此类数据会比较困难,因此可以尝试使用市场调查的方法收集用户的想法和需求数据。 

3、数据处理

数据处理是指对收集到的数据进行加工整理,形成适合数据分析的样式,它是数据分析前必不可少的阶段。数据处理的基本目的是从大量的、杂乱无章、难以理解的数据中,抽取并推导出对解决问题与价值、有意义的数据。数据处理主要包括数据清洗、数据转化、数据提取、数据计算等处理方法。经过这些预处理后,最重要的就是进行数据的计算统计、合并转换,让数据符合目标分析过程。

4、数据分析

数据分析是指用适当的分析方法及工具,对处理过的数据进行分析,提取有价值信息,形成有效结论的过程。主要的分析:趋势分析、对比分析、同比环比分析、频度频率分析、细分分析、漏斗图分析等等。还有一部分分析需要到更高级的数据分析方法才能得到结论。由于数据分析多是通过软件来完成。这就要求数据分析师不仅要掌握各种数据分析方法,还要熟悉主流数据分析软件的操作。一般的数据分析我们可以通过Excel完成,而高级的数据分析就要采用专业的分析软件进行了,如数据分析工具SPSS Statistics,DataHunter等。 

5、数据展现

数据分析的目的就是要解决问题的,往往数据分析师不是需求的发起人,那么这就需要数据分析师把分析的数据和结论展现给需求方。最佳的方式就是通过图表,有理有据形象的重点突出且专业的表达出来。比如常用的有:折线图、柱形图、条形图、饼图、散点图、漏斗图、雷达图等等,当然可以对这些图表进一步整理加工,使之变为我们所需要的图形,例如金字塔图、矩阵图、漏斗图、帕累托图等。

图形的数据展现方式,更加有效、直观。在一般情况下,能用图说明问题的就不用表格,能用表格说明问题就不用文字。 

6、报告撰写

数据分析报告是对整个数据分析过程的一个总结与呈现。通过报告,把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考。一份好的数据分析报告需要有如下3点要求:

(1)好的分析框架:首先需要有一个好的分析框架,并且图文并茂、层次明晰,能够让阅读者一目了然。

(2)明确的结论:没有明确结论的分析称不上分析,同时也失去了报告的意义。

(3)建议或解决方案:作为决策者,需要的不仅仅是找出问题,更重要的是建议或解决方法,以便他们在决策时作参考。所以,数据分析师不仅需要掌握数据分析方法,而且还要了解和熟悉业务,这样才能根据发现的业务问题,提出具有可行性的建议或解决方案。 

 

五、数据指标

5.1 两个概念

两个概念
指标纬度
指标:用于衡量事物发展程度的单位或方法,它还有个IT上常用的名字,也就是度量。维度:是事物或现象的某种特征。
例如:人口数、GDP、收入、用户数、利润率、留存率、覆盖率等。例如:性别、地区、时间等都是维度。
指标用于衡量事物发展程度,那这个程度是好还是坏,这就需要通过不同维度来对比,才能知道是好还是坏。维度可以分为定性维度跟定量维度,也就是根据数据类型来划分,数据类型为字符型(文本型)数据,就是定性维度,如地区、性别都是定性维度;数据类型为数值型数据,就为定量维度,如收入、年龄、消费等。

5.2 什么是好的数据指标?

在做数据分析之前,首先要有好的数据指标,好的数据指标应该与目标相关,好的数据指标能带来你所期望的变化。

5.3 虚荣指标

为指导产品测试、科学迭代,相比虚荣指标,我们更需要关注可行性的指标。比如渠道评估,平均访问次数、衡量网站的用户体验的平均访问时长,直接反应网站流量质量的跳出率等,它们更能引导你如何页面优化、匹配核心关键词调整。

 

六、常见的数据分析方法

6.1 数据趋势分析

适用于产品核心指标的长期跟踪,比如点击率、GMV(成交总额)、活跃用户数、转化率等。

趋势分析更多的是需要明确数据的变化,以及对变化原因进行分析。 趋势分析,最好的产出是比值(环比,同比,定基比)。 趋势分析另一个核心目的则是对趋势做出解释,对于趋势线中明显的拐点,发生了什么事情要给出合理的解释,无论是外部原因还是内部原因。

6.2 对比分析

对比分析,就是给孤立的数据一个合理的参考系,否则孤立的数据毫无意义。

数据的趋势变化独立的看,其实很多情况下并不能说明问题。 问题:如果一个企业盈利增长10%,我们是否可以判断出企业发展的好坏?

6.3 分组分析

在得到一些初步结论的时候,需要进一步地细拆,因为在一些综合指标的使用过程中,会抹杀一些关键的数据细节,而指标本身的变化,也需要分析变化产生的原因。这里的细分一定要进行多维度的细拆。 通过不同的维度对于数据进行分解,以获取更加精细的数据洞察。在选择维度时,需要仔细思考其对于分析结果的影响。

当监测到网站流量异常时,可以通过拆分地区、访问来源、设备、浏览器等等维度,发现问题所在。

 

  • 不同时间段数据是否有变化。
  • 不同来源段流量或者产品是否有变化。
  • 新老用户是否有差异,高低等级用户是否有差异。
  • 不同地区得出数据是否有变化。

补充:组成拆分,比如搜索由搜索词组成,可以拆分不同搜索词;店铺流量由不用店铺产生,可以分拆不同的店铺。

6.4 漏斗分析

绝大部分商业变现的流程,都可以归纳为漏斗。 第一,从开始到结尾,整体的转化效率是多少? 第二,每一步的转化率是多少? 第三,哪一步流失最多,原因在什么地方?流失的用户符合哪些特征?

上图中注册流程分为 3 个步骤,总体转化率为45.5%

 

6.5 AARRR-2A3R分析模型

  1. 获取(Acquisition):用户如何发现(并来到)你的产品?
  2. 激活(Activation):用户的第一次使用体验如何?
  3. 留存(Retention):用户是否还会回到产品(重复使用)?
  4. 收入(Retention):产品怎样(通过用户)赚钱?
  5. 传播(Retention):用户是否愿意告诉其他用户?

1)用户获取

渠道的获客数量   获客质量

2)用户激活

注册激活/主动活跃  推送活跃/交易活跃

3)用户留存

用户只有留存下来,才有可能与APP发生更多接触,才有可能最终促成付费。

4)收入(用户付费and广告收入)

收入部分主要是公司的业务层面的数据。

5)传播

舆情监控维度(包括用户的主动传播分享) 产品的引导分享维度。

用户获取-获客渠道数量

渠道(每日新增)

7月8月9月10月
Android应用市场-36040

50

6070
应用市场-豌豆荚20304050
活动-线下活动10203040
活动-线上活动20304050
预装量30405060
其它10203040
IOSAPPstore50607080
越狱渠道60708090
用户获取-获客渠道质量

渠道(每日新增)

平均没有启动次数平均单次使用时长首次交易户
Android应用市场-360310min20
应用市场-豌豆荚120min30
活动-线下活动210min40
活动-线上活动320min50
预装量110min60
其它220min70
IOSAPPstore110min20
越狱渠道220min30

 

6.6 A/B测试

A / B测试(也称为分割测试或桶测试)是一种将网页或应用程序的两个版本相互比较以确定哪个版本的性能更好的方法。AB测试本质上是一个实验,其中页面的两个或多个变体随机显示给用户,并且统计分析用于确定哪个变体对于给定的转换目标更好地执行。

(1)多个方案并行测试 (2)每个方案只有一个变量不同 (3)以某种规则优胜劣汰

七、常见问题

7.1 辛普森悖论

简单来说,就是在两个相差较多的分组数据相加时,在分组比较中都占优势的一方,会在总评中反而是失势的一方。

 


数据分析师日常工作:

  • 提供基础数据报表,满足基础需求。
  • 分析业务和产品,提供业务运营和产品优化建议
  • 提供战略性分析和战略性报告
  • 协助开发数据产品。

 


3年数据分析小白记录

*本文部分内容来自,《谁说菜鸟不会数据分析》读后感。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值