目录
1.2 为什么要进行数据分析
在做一件事情之前,我们首要需要弄清楚为什么要去做,或者做了这件事以后将产生什么好的效果,这样我们才能更好地坚持下去。
数据分析可以把隐藏在大量数据背后的信息提炼出来,总结出数据的内在规律,代替了以前那种拍脑袋、靠经验的做法,现在受到越来越多的企业的重视。在企业的日常经营分析中,数据分析有三大作用,即现状分析、原因分析、预测分析。
1.2.1 现状分析
现状分析可以告诉分析人员企业的业务在过去发生了什么,具体表示在以下两个方面:
第一,告诉分析人员企业现阶段的整体经营状况,通过各个关键指标的表现情况来衡量企业的经营状况,从而掌握企业目前的发展趋势。
第二,告诉分析人员企业各项业务的构成,通常企业的业务并不是单一的,而是由很多分支业务构成的,通过现状分析可以让分析人员了解企业各项分支业务的发展及变动情况,对企业经营状况有更深入的了解。
现状分析一般通过日常报表来实现,如日报、周报、月报等形式。
1.2.2 原因分析
原因分析可以告诉分析人员某一现状为什么会存在。
经过现状分析,分析人员对企业的经济情况有所了解,知道哪些指标呈上升趋势,哪些指标呈下降趋势,或者哪些业务做得好,哪些做得差。但是分析人员还不知道那些做得好的业务为什么会做得好,业务做得差的原因又是什么?找原因的过程就是原因分析。
原因分析的第一步就是看转化漏斗,转化漏斗就是指用户从进平台到最后下单所需要经历的各个转化过程。通过分析每个转化过程,就可以知道问题发生在哪一个或者哪些过程中。
通过转化渠道我们只能知道某一过程有问题,但问题还不够明确,我们还需要继续进行细分,细分就是将整体分为各种维度。
1.2.3 原因分析
预测分析可以告诉分析人员未来可能发生什么。
在了解了企业经营状况以后,分析人员有时还需要对企业未来的发展趋势做出预测,为制定企业经营目标及策略提供有效的参考与决策依据,以保证企业的可持续健康发展。
预测分析一般是通过专题分析来完成的,通常在制订企业季度、年度计划时进行。
1.3 数据分析究竟在分析什么?
1.3.1 总体概览指标/统计绝对数
总体概览指标是反映某一数据指标的整体规模大小、总量多少的指标。比如当日销售额60万元、当日订单量2万单、购买人数1.5万人。
我们把经常关注的总体概览指标称为关键性指标。
1.3.2 对比性指标
对比性指标是说明对象之间数量对比关系的指标,常见的就是同比、环比、差指标。同比是相邻时间段内某一共同时间点内指标的对比,环比是相邻时间段内指标的对比,差是两个时间段内的指标直接做差,差的绝对值是两个时间段内指标的变化量。比如,当天与昨天、本周与上周、本月与上月比较都是环比;当日与上周同期、本周与上月同期、本月与去年同期比较都是同比。
同比的计算公式:(本期数据-同期数据)÷ 同期数据
环比的计算公式:(本期数据 - 相邻期数据)/ 相邻期数据
1.3.3 集中趋势指标
集中趋势指标是用来反映某一现象在一定时间段内所达到的一般水平。用平均指标来表示,比如,平均工资水平、平均年龄、平均房价等。平均指标分为数值平均和位置平均。
数值平均是统计数列中所有变量值平均的结果,有普通平均值和加权平均值两种。
位置平均基于特殊位置或者普遍出现的标志值作为整体一般水平的代表值,有众数、中位数两种。众数师研究总体中出现次数最多的变量值,它是总体中最普遍的值,中位数是指将总体中各单位标志值按大小顺序进行排列,处于中间位置的变量值就是中位数。
1.3.4 离散程度指标
离散程度指标是用来表示总体分布的离散(波动)情况的指标,如果这个指标较大,则说明数据波动比较大,反之则说明数据相对比较稳定。
全距/极差:通过平均数可以知道某一指标的集中趋势,但是无法知道数据的变动情况。
标准差是方差的平方。表示数值与平均值距离的平均值。
1.3.6 相关与因果
相关关系不等于因果关系,相关只能说明两件事情有关联,而因果关系,是说明一件事情导致了另一件事情的发生。
1.4 数据分析的常规分析流程
1.5 数据分析工具
1.5.1 Excel与SQL
数据库本身是存储数据的,但我们在从数据库获取数据的时候需要对数据进行一系列处理,最后得到我们真正需要的结果数据。
Excel是用来进行数据处理的,我们可以把一个Excel工作簿本身当作一个数据库,一个Excel工作簿会包含多个Sheet,一个Sheet对应数据库中的一张表,而一个数据库也会包含多张表。现在很多互联网公司的数据量太大,使用本地的Excel存储数据已经不能满足日常业务需求,所以数据一般都会存储在数据库中。但是本质原理还是一样的。
1.5.2 SQL与Python
虽然SQL可以实现我们在数据分析过程中需要的大部分操作,但是有些操作在SQL中实现起来还是比较烦琐的,这个时候我们就可以使用SQL将数据提取出来,然后导入Python中进行处理。