《对比Excel,轻松学习Python数据分析》读书笔记------数据分析简介

1.1 数据分析的定义

数据分析是指,利用合适的工具,在统计学理论的支撑下,对数据进行一定的预处理,结合业务需求分析解构数据,以期能够监控、定位、预防、分析、解决问题,提高经营效率,发现机遇机会的过程。

1.2 数据分析的目的

啤酒和尿布

数据分析里有一个经典的案例,超市里经常会把婴儿尿不湿和啤酒放在一起售卖,原因是经过数据分析发现,出来买尿不湿的家长以父亲居多,如果他们在买尿不湿的同时看到了啤酒,将有很大的概率会买来犒赏自己。这样啤酒的销售量自然会有所提高。

由啤酒和尿布的故事可以发现,适当的数据分析能够帮助我们进行更加正确有效的决策。

数据分析的主要目的是,挖掘大量数据背后隐藏的信息,从而总结出数据变化的内在规律

按照目的和阶段先后进行划分,数据分析一般分为:现状分析、原因分析、预测分析

1.2.1 现状分析

现状分析,是对当前所得的数据进行总结。

  • 总结当前运营的整体状态
  • 总结各项关键指标的变化量

形式一般为日常报表,如:日报、周报、月报

1.2.2 原因分析

原因分析,是指进行现状分析后,找到某种现象发生的原因。

比如,某种商品销售量突然暴增,就需要对它进行数据分析,来找到其中的原由,给以后的销售策略提供参考。

形式一般为专题分析。

1.2.3 预测分析

预测分析,是指通过已有的现状分析和原因分析,对某一决定可能造成的影响进行预测。

形式一般为专题分析。常在季度、年度计划时进行。

1.3 数据分析的指标

数据分析,分析的是从大量数据中得出来的各项指标。

一般分为总体概览指标、对比性指标、集中趋势指标、离散程度指标、相关性指标等

1.3.1 总体概览指标

总体概览指标,又称统计绝对数,它反映了某一数据字段的整体规模大小总量

“xx总量",如一定总体范围内粮食总产量、工农业总产值、企业单位数等。

经常关注的总体概览指标,我们一般称为关键性指标

1.3.2 对比性指标

对比性指标,它反映了同一数据字段在不同时间下的数量对比关系。常见的有同比、环比、差等。

  • 同比:与过去相同时间段的相同时间点进行对比。比如今年7月份与去年7月份销售量之间的比较。
  • 环比:与当前相同时间段的不同时间点进行对比。比如今年7月份与今年6月份销售量之间的比较。
  • :两个不同时间段内的指标直接作差。

1.3.4 集中趋势指标

集中趋势指标,它反映了一个时间段内数据字段的平均水平

又称平均指标。分为数值平均和位置平均。

  • 数值平均:算术平均数、加权平均数等

算术平均数 : A n = a 1 + a 2 + ⋅ ⋅ ⋅ + a n n = 1 n ∑ i = 1 n a i 加权平均数 : G n = w 1 a 1 + w 2 a 2 + ⋅ ⋅ ⋅ + w n a n = ∑ i = 1 n w i a i        w 1 + w 2 ⋅ ⋅ ⋅ + w n = ∑ i = 1 n w i = 1 算术平均数:A_n=\frac{a_1+a_2+···+a_n}{n}=\frac{1}{n}\sum_{i=1}^{n}a_i \\ 加权平均数:G_n=w_1a_1+w_2a_2+···+w_na_n=\sum_{i=1}^{n}w_ia_i \ \ \ \ \ \ w_1+w_2···+w_n=\sum_{i=1}^{n}w_i=1 算术平均数:An=na1+a2+⋅⋅⋅+an=n1i=1nai加权平均数:Gn=w1a1+w2a2+⋅⋅⋅+wnan=i=1nwiai      w1+w2⋅⋅⋅+wn=i=1nwi=1

  • 位置平均:中位数、众数等
    • 中位数:将数据从小到大排列,位于正中间的一个数据或两个数据的平均值
    • 众数:一定区域的数据中出现次数最多的数据值

1.3.5 离散程度指标

离散程度指标,它反映了数据的离散(波动)情况

常见的有全距、方差、标准差等

  • 全距:又称极差。反映数据字段整体波动范围

全距 : R = max ⁡ D − min ⁡ D 全距:R=\max D-\min D 全距:R=maxDminD

全距容易受异常值的影响,为了解决这个问题,引入了四分位数。

  • 四分位数:将数据从小到大排列,一分为四,得到三个临界数据,称最大的为上四分位数,最小的为下四分位数,剩下的那个为中位数。

  • 方差:反映数据相对于平均值的波动程度。越小波动程度越低。

  • 标准差:方差的开方。反映数据相对于平均值的波动程度。更为直接。越小波动程度越低。

方差  s 2 = 1 n [ ( a 1 − A n ) 2 + ( a 2 − A n ) 2 + ⋅ ⋅ ⋅ + ( a n − A n ) 2 ] = 1 n ∑ i = 1 n ( a i − A n ) 2 标准差  s = s 2 = 1 n ∑ i = 1 n ( a i − A n ) 2 方差\ s^2=\frac{1}{n}[(a_1-A_n)^2+(a_2-A_n)^2+···+(a_n-A_n)^2]=\frac{1}{n}\sum_{i=1}^{n}(a_i-A_n)^2\\ 标准差\ s=\sqrt {s^2}=\sqrt {\frac{1}{n}\sum_{i=1}^{n}(a_i-A_n)^2} 方差 s2=n1[(a1An)2+(a2An)2+⋅⋅⋅+(anAn)2]=n1i=1n(aiAn)2标准差 s=s2 =n1i=1n(aiAn)2

1.3.6 相关性指标

相关性指标,它反映了两个数据字段间的相关性。

常见的有协方差,相关系数等。

协方差:表示两个数据字段之间的总体误差。为正,则两个数据字段正相关,为负,负相关。
协方差  C o v [ X , Y ] = ∑ i = 1 n ( x i − X n ) ( y i − Y n ) n 协方差\ Cov[X,Y]=\frac{\sum_{i=1}^{n}(x_i-X_n)(y_i-Y_n)}{n} 协方差 Cov[X,Y]=ni=1n(xiXn)(yiYn)

相关系数:范围为 [ − 1 , 1 ] [-1,1] [1,1],绝对值越大说明相关性越强。符号为正,代表正相关。为负,代表负相关。
相关系数  r ( X , Y ) = C o v [ X , Y ] s 2 ( X ) ⋅ s 2 ( Y ) = ∑ i = 1 n ( x i − X n ) ( y i − Y n ) ∑ i = 1 n ( x i − X n ) 2 ⋅ ∑ i = 1 n ( y i − Y n ) 2 相关系数 \ r(X,Y)=\frac{Cov[X,Y]}{\sqrt {s^2(X)·s^2(Y)}}=\frac{\sum_{i=1}^{n}(x_i-X_n)(y_i-Y_n)}{\sqrt {\sum_{i=1}^n(x_i-X_n)^2·\sum_{i=1}^n(y_i-Y_n)^2}} 相关系数 r(X,Y)=s2(X)s2(Y) Cov[X,Y]=i=1n(xiXn)2i=1n(yiYn)2 i=1n(xiXn)(yiYn)

1.4 数据分析的一般流程

1.4.1 熟悉工具

工欲善其事,必先利其器。

常见的数据分析工具有Excel、Python、R、Sql等

1.4.2 明确目的

明确本次数据分析的目的,即希望通过数据分析解决什么问题,想得出什么方面的结论。

1.4.3 获取数据

从各种渠道获取数据源。

  • 明确所需要的数据字段
  • 明确所需数据的时间段
  • 明确数据所在的数据表
  • 明确如何提取数据

1.4.4 熟悉数据

从各方面总览获取到的数据。

  • 数据的大体规模
  • 某些数据字段是否缺少或多余
  • 数据字段的类型

1.4.5 处理数据

对特殊数据进行处理。

如:

  • 异常数据:根据需求,删除或重点研究
  • 重复数据:一般删除即可
  • 缺失数据:缺失率高于 30 % 30\% 30% 一般直接删除;:缺失率低于 30 % 30\% 30% 一般使用0、均值、众数等进行填充。
  • 测试数据

1.4.6 分析数据

对数据字段的各项指标进行分析

1.4.7 得出结论

分析后得出结论

1.4.8 验证结论

用实践去检验结论的正确性。

1.4.9 展示结论

通过数据可视化的方式向他人展示本次数据分析的结论。

1.5 数据分析工具

重点学习Python和Excel

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

木子希卡利

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值