这次主要学习一下作为数据分析师,应该怎么从什么角度去思考问题。
三、数据分析的思考方式
1、互联网数据分析的基本思路
遇到一个问题,按顺序从以下3个方面思考,并且每个阶段都有对应的一些方法。
1) 找出问题
描述性分析
2)分析问题
诊断性分析、预测性分析、仿真模拟
3) 解决问题
数据报告,决策性分析
下面对每个方法进行一下说明
2、不同类型的数据分析方法
1)描述性分析
通过计算数据的集中性特征和波动性特征以了解数据的基本情况。
一般分析的内容:
- 数值分析:数量、平均数、极差、标准差、方差、极值
- 分布规律:均与分布、正态分布、长尾分布
- 可视化方法:柱状图、条形图、散点图、饼状图
2)诊断性分析
深入挖掘问题根源,识别依赖关系,找出影响因子。
分析主要变量是正相关、零相关还是负相关。
相关可以计算皮尔逊相关系数来判断,注意这个只适用于线性数据。
皮尔逊相关系数是两个变量之间的协方差和标准差的商。具体单独学习。
3)预测性分析
使用线性回归或逻辑回归的方法找到自变量和因变量之间的关系,并使用该关系等式预测因变量的变化。
线性回归和逻辑回归,后面单独学习。
怎么评估线性回归的好坏,就是用R^2统计量来评估模型的准确性,当然这个也只能评估整体,不能评估细节,细节的话做完回归后的数据表里有一些参数可以判断,比如:
R-square是否够大,是否能解释y的变化
F-statistic,如果足够大,自变量和因变量就有关系
还有p值,必须很小有意义
coefficients,表现在正负号和大小,主要看正负号的定性分析。
而评估逻辑回归的好坏,就用的是极大似仍然估计。
简单说就是用几个样本的例子,来推导出整体的概率分布,就得一点一点试最后找一个最可能的概率分布。
仿真模拟,上节也说过,用很多随机数来模拟,最后看看呈现一个什么样的结果。比如用两个骰子抛点数,统计所有的点数出现的次数,最终会形成一个正态分布。
3、 上面这些方法在Excel中的实践
1)描述性分析
数值分析:要算的就是上面说的那几个,excel里fx直接这么算,假设数据在表格A2到A11。
- 平均数: =AVERAGE(A2:A11)
- 标准差:=STDEV.P(A2:A11)
- 极差:=MAX(A2:A11)-MIN(A2:A11)
- 最大值: = MAX(A2:A11)
- 最小值:=MIN(A2:A11)
图表:选中数据后在插入里可以选择图表
- 选择直方图,可以用来做帕累托分析,为了看二八分布。
- 选择折线图,可以选择添加趋势线,就得到一个虚线的趋势线
- 选择气泡图,气泡大小也是一个维度,对同一个对象的3个数据可视化,最佳方式就是气泡图。手动改变气泡颜色就增加了4个维度
2)诊断性分析:
分析两组数据有没有关联,这样用,假设两组数据分别是A1-500和B1-500:
=PEARSON(A1:A500,B1:B500)或者
=CORREL(A1:A500,B1:B500)
3)预测性分析
excel里还可以做线性回归,首先要添加插件,在这里:
文件->选项->弹出框里的加载项->下面管理加载项->转到->勾选需要的分析工具库
此时在数据tab最后面多了一个数据分析的按钮,点击弹窗里会有很多分析的工具。选“回归”,会弹出弹窗,输入Y值和X值输入区,会得到一个回归统计结果表,类似这样:
里面就有想要看的参数,可以进行进一步分析。
4、关于图表的一些方法
1)图表类型的选择
- 柱状图:比较数据大小
- 散点图:表示数据关系(产品定位、波士顿矩阵、四象限分析)
- 气泡图:观察多指标间的关系
- 折线图:观察时间序列数据(销量波动,指数波动)
- 雷达图:展现多维数据(产品分析,不同产品数据对比分析,可以放十几二十几个维度,比如游戏人物属性)
- 漏斗图:分析数据转化(广告分析,流量分析,数据转化)
2)坐标轴、颜色、图表细节的优化
要点:
- 坐标轴范围要包含数据本身
- 使用红色标注强调内容
- 刻度线、数据标签等细节优化
3)数据多维展现
多维数据的筛选和应用。
- 一维数据,数值比较、趋势分析。
- 二维数据,两个属性,比较分析不同属性的关联度
- 三维数据,比如四象限分析法 ,波士顿矩阵。
- 多维数据,再加颜色或深浅,但也会更复杂。