python简单小案例数据分析统计服_Python数据分析之统计学基础(案例:描述统计)...

学习数据分析离不开统计学的相关知识,在这块我自己属于零基础,上学的时候也是文科生没有开设任何数学相关课程,所以选择了《深入浅出统计学》这本书入门,下面对这块基础知识做一些整理。

一、集中趋势的度量:均值、中位数、众数

1.均值

平均数的一般度量,应用最广泛的统计量之一,可用μ表示。

均值的计算方法:分子表示所有数字之和,分母表示所以数字个数。均值与频数

在计算一批数据的均值时,会发现有些数字是重复的,这个时候要把每个数的频数考虑进去。如果用f表示频数,均值的表示方法如下:均值与异常值

异常值:与其他数据格格不入的极高或极低的数值。数据中有异常值时,就会产生向右或向左偏斜数据。

向右偏斜的数据由偏大异常值形成,向右逐渐变弱,会将均值拉高,偏向右边。

向左偏斜的数据则是均值小于大部分值。

2.中位数

偏斜数据和异常值会使数据会对均值造成误导,这个时候可以取中间值来求平均数,这个中间值就是中位数。

中位数的算法:

1)按顺序排列数字:从最小值排列到最大值。

2)如果有奇数个数值,则中位数为位于中间的数值,则中间数的位置为(n+1)/2。

3)如果有偶数个数值,则将两个中间数相加,然后除以2。

3.众数

众数是另外一种平均数。它是一批数据中频数最大的数值。数据的众数可以不止一个,如果有一个以上的数值具有最大频数,则每一个这样的数值都是众数。

众数的计算方法:

1)把数据中的不同类别或者数值找出来。

2)写出每个数值或类别的频数。

3)挑出具有最高频数的一个或几个数值,得出众数。

下图归纳总结了这三种平均数的用法:

二、分散性与变异性的量度

1.全距(极差):获知数据的分散情况

计算方法:上界 - 下界。(其中上界为最大值,下界为最小值)

全距仅仅描述了数据的宽度,并没有描述数据在上、下界之间的分布形态。如果数据中含有异常值,使用全距描述数据的分散情况会极具误导性。

2.四分位数

按升序排列数据,然后将这些数据分成四个相等的数据块,每个数据块包含四分之一原有数据。最小的四分位数(Q1)称为下四分位数或第一四分位数,最大的四分位数(Q3)称为上四分位数或第三四分位数。中间的四分位数(Q2)就是中位数,因为它将数据一分为二。没两个四分位数之间的距被称为四分位距(IQR)。

四分位距=上四分位数-下四分位数(较少受到异常值的影响)

四分位距仅用了处于中心部位的50%的数据,所以无论异常值是极大值还是极小值,都被排除在外。

3.百分位数

百分位数将数据一分为百。对于划分档次非常有用。第k百分位数就是位于数据范围k%处的数值。百分位距与四分位距相似,但百分位距是介于两个百分位数之间的距离。

4.箱线图

箱线图可以显示数据的全距、四分位距以及中位数。

创建箱线图的方法:首先按照标度画出一个“箱”,箱的左右两边分别代表下四分位数和上四分位数;然后,在箱中画一条线,标出中位数;通过这个箱可以看出四分位距的宽度。随后在箱的两边画出“线”,显示出全距的上界、下界以及宽度。

在箱线图上,一条条线的长度会随着上、下界的增长而增长,通过观察箱线图上的线,就能了解数据的偏斜程度。如果箱线图是对称的,那么基础数据很可能也是对称的。箱线图能在同一张图上体现多批数据,非常有利于比较。

5.方差和标准差

方差是量度数据分散性的一种方法,是数值与均值的距离的平方数的平均值。

方差的计算方法:方法一方法二

标准差是取方差的平方根,是描述典型值与均值距离的一种方法,标注差越小,数值离均值越近。

标准差的表示方法:

6.标准分

标准分可以对不同数据集的数据进行比较,这些不同数据集的均值和标准差各不相同。标准分通常用字母“z”表示,计算方法如下:

通过标准分之后,可以把这些数值视为来自同一个数据集或数据分布来进行比较。

案例实践:对6家股票数据进行描述统计分析。导入所需要的数据分析包、绘图包,通过pandas_datareader从雅虎数据源获取到所要分析的数据。建立字典,获取到6家股票数据确定时间范围,获取数据查看前五行数据,使用head查看前几行数据(默认是前5行),不过也可以指定前几行查看数据的描述统计信息

count表示计数,mean表示平均值,std是标准差 ,min表示最小值,25%是下四分位数,50%是中位数,75%是上四分位数,max即为最大值。定义函数,获取股票变化趋势调用函数,获取各家股票涨跌情况用图形绘制包 matplotlib.pyplot进行绘图

这次简单整理了基础的统计学知识,深入浅出统计学这本书相对来说还是比较好理解的,这些基础知识也是数据分析常用到的知识。后面利用Python数据分析包,对股票数据做了简单的描述统计分析,Pandas、Numpy、Matplotlib都是Python做数据分析常用的相关包,做数据分析工作必须要掌握好这块知识,在后面的学习过程会慢慢加强这方面的训练。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值