这里是Jimmy自习室,欢迎来和Jimmy一起学习~
~~~~~~ 分割线 正文开始 ~~~~~~
今天继续学习陈红波、刘顺洋老师的《数据分析从入门到进阶》这本书,我个人认为前面的综述部分特别重要,是指导我们后面学习进阶的重要纲领,所以我自己会花很多时间在这方面去充分理解其中的内容,后面的一些内容更多的是实操,我会更多的记录我自己的实际操作和理解。
数据分析之道,就是数据分析的策略,或者说方法论,或者说是思路和套路。
主要包括三类统计分析策略,和一些常见的分析方法。
一、三类统计分析策略
上篇文章里我们提到了数据分析的四个层次:描述性分析、诊断性分析、预测性分析和处方性分析,其实处方性分析就是针对预测性分析结果给出未来的战略规划,所以并不严格地看做是一个分析策略。
所以,从策略的角度看,统计分析有三类:
描述性统计分析
探索性统计分析
推断性统计分析
1、描述性统计分析
侧重于对数据特征的描述。包括:
数据的平均水平
数据的可行范围
数据的波动分散程度
数据的频数分析
数据的集中趋势分析(均值、中位数、众数等)
数据的离散程度分析(标准差、极差、变异系数等)
数据的分布(如偏度值、峰度值等)
一些基本的统计图形(饼图、直方图、箱线图等)
具体描述什么,需要根据分析目的来决定。
描述的方式,可以是文字,也可以是图表
2、探索性统计分析
探索两类问题:
数据背后隐藏的内在规律和联系
如,研究某些变量之间是否存在一定的相关性
研究两组样本之间是否存在显著的差异
探索指标未来的变化趋势
数据中出现异常的原因
探索企业内某指标(如曝光量、广告点击率、支付成功率、某支付渠道占比等)没有达标的原因
大多数情况下,探索性统计分析都是借助数据可视化的技术将问题的答案图形化呈现,以便于直观地发现数据中有意思的信息。
探索两个变量之间的关系,最常用的方法就是绘制它们的散点图(两个变量分别为X轴和Y轴),通过散点图可以直观地发现他们之间的关系(线性关系、非线性关系或无相关关系)
如在探索汽车速度与刹车距离之间的关系时,绘制散点图如下:
可以直观看出速度和刹车距离之间存在正相关的线性关系。(除了直观观察外,还可以进行拟合计算,看看能否找到一条拟合曲线)
在对比两组或多组样本之间的差异时,可以选择统计学中的箱型图(又称盒须图)
该图形有两大作用:一是可以方便地实现数据的对比,二是可以识别出数据中的异常样本点
如在探索泰坦尼克号男女乘客在一等舱的票价是否存在差异时,就可以用箱型图来描述:
对于探索某电商的交易量在PC端和移动端之间的比例变化,可以选择百分比堆叠条形图:
当然,更精确的方法,是使用统计学中的计算方法:
借助随机抽样的方法,从总体中抽取部分样本,并根据样本推断出总体的水平——统计推断中的均值检验
根据样本的两个属性(即2个变量),判断属性间是否存在相关性——统计推断中的相关系数检验或卡方检验
根据样本的分布,判断其总体是否服从正态分布——正态性检验
3、推断性统计分析
推断主要使用假设检验的方法,假设未来某个结论成立,计算相应统计量和对应的概率P值,如果概率P值小于0.05(默认的对比值),则拒绝原假设,反之接受原假设。
三个例子,参考原文:
通过t检验推断两样本之间的均值是否存在差异
通过卡方检验与Pearso相关性检验推断样本的两个属性是否不相关
通过Shapiro正态性检验推断样本是否服从正态分布
注:这里的统计计算,都可以使用Python的pandas库来完成。
二、数据分析的常用方法
上面介绍的三类统计分析方法属于概括性的方向指引,即我们在数据分析过程中,需要先利用这三类统计分析方法的策略去描述或思考数据反映的现象和问题,然后再利用这一章节介绍的常用数据分析方法进行具体分析。
这里列举的方法并不包括全部方法,只是一些常用的。
1、对比分析法
对比分析法:通过指标的对比来反映事物数量上的差异和变化
包括:横向对比和纵向对比
横向对比是指不同事物在固定时间上的对比
如,不同用户等级在客单价之间的差异,不同品类之间的利润率高低,新用户在不同渠道的支付转化率
纵向对比是指同一事物在时间维度上的对比
如,环比(日活用户数DAU在本月与上月之间的对比),同比(销售额在本年度3月份与上一年3月份之间的对比),定基比(2-6月份的点击量与1月份的点击量做对比)
对比分析法结果的描述:
可以使用相对值(百分数、倍数、系数,如2019年的销售额相较2018年增长了87%,3月份新增用户是2月份的3倍)
也可以使用绝对值(相差的绝对数:1月份销售额比2月份销售额高了100万,或相差的相关的百分点:3月份销售额增长率比2月份销售额增长率低了2个百分点)
2、分组分析法
分组分析:按照多个维度将数据分为各种组合,并比较各组合之间的差异
举例:新书上市做销售渠道调研,比较多个渠道的销售量。
分组分析一般与对比分析配合使用。
如果要对比各销售渠道在10月份的销量,就应采用对比分析法:
如果要对比各渠道在9月、10月和11月的销量,就应采用分组分析法:
这里你可以理解为是按照时间维度(月为单位)对各渠道销量进行了分组,从中可以看出各渠道销量在时间维度上的变化。(在每月份分组中,还是使用对比法对比各渠道销量)
注意上面这个数据表,也可以用百分比堆叠条形图来直观展示:
3、预测分析法
预测分析法:利用历史数据,预测未来数据
例如:基于过去三年的历史销售数据,预测未来六个月的销售额;根据患者各项体检指标,预测其患某种疾病的可能;利用消费者的消费数据,预测消费者可能喜欢的商品。
预测分析法的两种类型:
一是基于时间序列的预测,即根据指标值的变化与时间依存关系进行预测
具体的方法包括:移动平均法、指数平滑法、ARIMA法等
二是回归类预测,即根据指标之间的相互影响的因果关系进行预测
具体的预测方法有:线性回归、KNN算法、决策树模型等
4、漏斗分析法
漏斗分析法也称为流程分析法,其目的是关注某件事在重要环节上的转化率。
例如:用户在某电商平台上浏览商品到完成下单的四个环节:
通过漏斗分析,对比各环节之间的转化率,对于转化率比较低的环节,可以认为是这个环节的产品功能设计或者活动步骤出现了问题,从而针对性进入到这个环节里寻找问题,并针对性给出解决方案,最终提高整体的转化率。
5、AB测试分析法
AB测试分析法也是对比,只不过是对比AB两组结构相似的样本,并基于两组样本的指标值挖掘各自的差异。
例如APP中某个功能页,可以设计两种不同风格的页面布局,然后将这两种风格的页面布局随机分配给测试用户(这些用户的结构比较相似),最后根据用户在改页面的浏览转化率来评价不同页面布局的优劣。
我们在工作实践中,会遇到很多不确定的问题,比如某个功能要不要上,某个流程顺序怎么排列比较好,某个图标的新设计方案受不受用户欢迎,等等,这些不确定性的问题,我们都可以通过AB测试分析法来给出实验数据支撑,从而获得确定性的答案。
~~~~~~ 分割线 正文开始 ~~~~~~
这里为我们的知识星球打个小广告
互联网产品设计部落,是一个给广大小伙伴交流学习的知识社区
在这里汇聚了一群热爱互联网产品、运营的小伙伴,你既可以学习别人的分享,也可以输出自己的学习心得,也可以互相提问、共同进步
只要你坚持输出高水平文章,就可以成为嘉宾,甚至合伙人
还在犹豫什么,学习从加入我们的知识星球开始