推论统计学是指在统计学中,研究如何根据样本数据去推断总体数量特征的方法。它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。
相比于描述统计学,主要有俩点不同。
1、定义不同:描述统计学是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。推论统计是借助抽样调查,从局部推断总体,以对不肯定的事物做出决策的一种统计。
2、主要内容不同:描述统计分为集中趋势分析、离中趋势分析和相关分析三大部分。推论统计包括总体参数估计与假设检验两种。前者以一次性抽样实验为依据,对整个总体的某个数字特征做出估计。后者则是对某种假设进行检验,根据计算结果推断所做的假设是否可以接受。
一、概率分布
1、随机变量
随机事件:在随机试验中,可能发生也可能不发生的事件,如明天是否下雨。
随机变量:用随机的数字表示随机事件的可能结果,常用大写字母X表示。
随机变量分为离散随机变量和连续随机变量。
计算离散随机变量的概率公式叫概率质量函数(Probability Mass Function), 统计形状为离散型概率分布,变量大小与数量有关。
计算连续随机变量的概率公式叫概率密度函数(Probability Density Function), 统计形状为连续型概率分布,变量大小与曲线下面积有关。
2、概率分布
概率分布的类型有很多,分为离散型概率分布和连续型概率分布,其中
离散概率分布主要有伯努利分布,二项分布,几何分布,泊松分布;
连续概率分布主要有正态分布, 幂律分布。
下面我们介绍这6种常见概率分布。
2.1 伯努利分布(Bernouli Distribution)
也称为“两点分布”,其E(X)=p(0<p<1),Var(X)=pq。最为简单的一个例子就是抛硬币,其正面为1,背面为0,其概率p为0.5,则其概率分布满足伯努利分布。
Python实现过程如下:
#导入包
#数组包
import numpy as np
#绘图包
import matplotlib.pyplot as plt
#统计计算包的统计模块
from scipy import stats
'''
第1步,定义随机变量:1次抛硬币
成功指正面朝上记录为1,失败指反面朝上记录为0
'''
X = np.arange(0, 2,1)
#第2步,#求对应分布的概率:概率质量函数 (PMF)
#它返回一个列表,列表中每个元素表示随机变量中对应值的概率
p = 0.5 # 硬币朝上的概率
pList = stats.bernoulli.pmf(X, p)
plot默认绘制折线,这里我们只绘制点,所以传入下面的参数:
marker:点的形状,值o表示点为圆圈标记(circle marker)
linestyle:线条的形状,值None表示不显示连接各个点的折线
'''
plt.plot(X, pList, marker='o',linestyle='None')
'''
vlines用于绘制竖直线(vertical lines),
参数说明:vline(x坐标值, y坐标最小值, y坐标值最大值)
我们传入的X是一个数组,是给数组中的每个x坐标值绘制竖直线,
竖直线y坐标最小值是0,y坐标值最大值是对应pList中的值
'''
plt.vlines(X, 0, pList)
#x轴文本
plt.xlabel('随机变量:抛硬币1次')
#y轴文本
plt.ylabel('概率')
#标题
plt.title('伯努利分布:p=%.2f' % p)
#显示图形
plt.show()