数据分析师的学习之路(3)

这次主要学习一下作为数据分析师,应该怎么从什么角度去思考问题。

三、数据分析的思考方式

1、互联网数据分析的基本思路

       遇到一个问题,按顺序从以下3个方面思考,并且每个阶段都有对应的一些方法。

       1) 找出问题 

                描述性分析

       2)分析问题

                诊断性分析、预测性分析、仿真模拟

       3) 解决问题

                数据报告,决策性分析

        下面对每个方法进行一下说明

2、不同类型的数据分析方法

        1)描述性分析

                通过计算数据的集中性特征和波动性特征以了解数据的基本情况。

                一般分析的内容:

  •                 数值分析:数量、平均数、极差、标准差、方差、极值
  •                 分布规律:均与分布、正态分布、长尾分布
  •                 可视化方法:柱状图、条形图、散点图、饼状图

        2)诊断性分析

                深入挖掘问题根源,识别依赖关系,找出影响因子。

                分析主要变量是正相关、零相关还是负相关。

                相关可以计算皮尔逊相关系数来判断,注意这个只适用于线性数据。

                皮尔逊相关系数是两个变量之间的协方差和标准差的商。具体单独学习。

        3)预测性分析

                使用线性回归或逻辑回归的方法找到自变量和因变量之间的关系,并使用该关系等式预测因变量的变化。

                线性回归和逻辑回归,后面单独学习。

                怎么评估线性回归的好坏,就是用R^2统计量来评估模型的准确性,当然这个也只能评估整体,不能评估细节,细节的话做完回归后的数据表里有一些参数可以判断,比如:

                R-square是否够大,是否能解释y的变化

                F-statistic,如果足够大,自变量和因变量就有关系

                还有p值,必须很小有意义

                coefficients,表现在正负号和大小,主要看正负号的定性分析。

                而评估逻辑回归的好坏,就用的是极大似仍然估计。

                简单说就是用几个样本的例子,来推导出整体的概率分布,就得一点一点试最后找一个最可能的概率分布。

                仿真模拟,上节也说过,用很多随机数来模拟,最后看看呈现一个什么样的结果。比如用两个骰子抛点数,统计所有的点数出现的次数,最终会形成一个正态分布。

3、 上面这些方法在Excel中的实践

  1)描述性分析

        数值分析:要算的就是上面说的那几个,excel里fx直接这么算,假设数据在表格A2到A11。

  • 平均数: =AVERAGE(A2:A11)
  • 标准差:=STDEV.P(A2:A11)
  • 极差:=MAX(A2:A11)-MIN(A2:A11)
  • 最大值: = MAX(A2:A11)
  • 最小值:=MIN(A2:A11)

        图表:选中数据后在插入里可以选择图表  

  • 选择直方图,可以用来做帕累托分析,为了看二八分布。
  • 选择折线图,可以选择添加趋势线,就得到一个虚线的趋势线
  • 选择气泡图,气泡大小也是一个维度,对同一个对象的3个数据可视化,最佳方式就是气泡图。手动改变气泡颜色就增加了4个维度

  2)诊断性分析: 

        分析两组数据有没有关联,这样用,假设两组数据分别是A1-500和B1-500:

        =PEARSON(A1:A500,B1:B500)或者

        =CORREL(A1:A500,B1:B500) 

   3)预测性分析

        excel里还可以做线性回归,首先要添加插件,在这里:              

文件->选项->弹出框里的加载项->下面管理加载项->转到->勾选需要的分析工具库

此时在数据tab最后面多了一个数据分析的按钮,点击弹窗里会有很多分析的工具。选“回归”,会弹出弹窗,输入Y值和X值输入区,会得到一个回归统计结果表,类似这样:

里面就有想要看的参数,可以进行进一步分析。

4、关于图表的一些方法

    1)图表类型的选择

  • 柱状图:比较数据大小
  • 散点图:表示数据关系(产品定位、波士顿矩阵、四象限分析)
  • 气泡图:观察多指标间的关系
  • 折线图:观察时间序列数据(销量波动,指数波动)
  • 雷达图:展现多维数据(产品分析,不同产品数据对比分析,可以放十几二十几个维度,比如游戏人物属性)
  • 漏斗图:分析数据转化(广告分析,流量分析,数据转化)

    2)坐标轴、颜色、图表细节的优化

要点:

  • 坐标轴范围要包含数据本身
  • 使用红色标注强调内容
  • 刻度线、数据标签等细节优化

      3)数据多维展现

         多维数据的筛选和应用。

  • 一维数据,数值比较、趋势分析。
  • 二维数据,两个属性,比较分析不同属性的关联度
  • 三维数据,比如四象限分析法 ,波士顿矩阵。
  • 多维数据,再加颜色或深浅,但也会更复杂。
  • 4
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值