分布直方图分析概率_推论统计分析学习（1）—概率分布与抽样分布

最新推荐文章于 2023-06-30 12:19:28 发布

徐祯先生

最新推荐文章于 2023-06-30 12:19:28 发布

阅读量1.2k

点赞数

文章标签：分布直方图分析概率

本文链接：https://blog.csdn.net/weixin_34107049/article/details/112628708

版权

本文介绍了推论统计学的基本概念，包括与描述统计学的区别，并详细探讨了概率分布（如伯努利、二项、几何、泊松、正态和幂律分布）和抽样分布，解释了中心极限定理及其应用，以及如何用样本估计总体并避免样本偏差。

摘要由CSDN通过智能技术生成

推论统计学是指在统计学中，研究如何根据样本数据去推断总体数量特征的方法。它是在对样本数据进行描述的基础上，对统计总体的未知数量特征做出以概率形式表述的推断。

相比于描述统计学，主要有俩点不同。

1、定义不同：描述统计学是通过图表或数学方法，对数据资料进行整理、分析，并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。推论统计是借助抽样调查，从局部推断总体，以对不肯定的事物做出决策的一种统计。

2、主要内容不同：描述统计分为集中趋势分析、离中趋势分析和相关分析三大部分。推论统计包括总体参数估计与假设检验两种。前者以一次性抽样实验为依据，对整个总体的某个数字特征做出估计。后者则是对某种假设进行检验，根据计算结果推断所做的假设是否可以接受。

思维导图及目录

一、概率分布

1、随机变量

随机事件：在随机试验中，可能发生也可能不发生的事件，如明天是否下雨。

随机变量：用随机的数字表示随机事件的可能结果，常用大写字母X表示。

随机变量分为离散随机变量和连续随机变量。

计算离散随机变量的概率公式叫概率质量函数(Probability Mass Function), 统计形状为离散型概率分布，变量大小与数量有关。

计算连续随机变量的概率公式叫概率密度函数(Probability Density Function), 统计形状为连续型概率分布，变量大小与曲线下面积有关。

2、概率分布

概率分布的类型有很多，分为离散型概率分布和连续型概率分布，其中

离散概率分布主要有伯努利分布，二项分布，几何分布，泊松分布；

连续概率分布主要有正态分布, 幂律分布。

下面我们介绍这6种常见概率分布。

2.1 伯努利分布（Bernouli Distribution）

也称为“两点分布”，其E(X)=p（0<p<1），Var(X)=pq。最为简单的一个例子就是抛硬币，其正面为1，背面为0，其概率p为0.5，则其概率分布满足伯努利分布。

Python实现过程如下：

#导入包
#数组包
import numpy as np
#绘图包
import matplotlib.pyplot as plt
#统计计算包的统计模块
from scipy import stats


'''
第1步，定义随机变量：1次抛硬币
成功指正面朝上记录为1，失败指反面朝上记录为0
'''
X = np.arange(0, 2,1)

#第2步，#求对应分布的概率:概率质量函数 (PMF)
#它返回一个列表，列表中每个元素表示随机变量中对应值的概率
p = 0.5 # 硬币朝上的概率
pList = stats.bernoulli.pmf(X, p)

plot默认绘制折线，这里我们只绘制点，所以传入下面的参数：
marker：点的形状，值o表示点为圆圈标记（circle marker）
linestyle：线条的形状，值None表示不显示连接各个点的折线
'''
plt.plot(X, pList, marker='o',linestyle='None')
'''
vlines用于绘制竖直线(vertical lines),
参数说明：vline(x坐标值, y坐标最小值, y坐标值最大值)
我们传入的X是一个数组，是给数组中的每个x坐标值绘制竖直线，
竖直线y坐标最小值是0，y坐标值最大值是对应pList中的值
'''
plt.vlines(X, 0, pList)
#x轴文本
plt.xlabel('随机变量：抛硬币1次')
#y轴文本
plt.ylabel('概率')
#标题
plt.title('伯努利分布：p=%.2f' %  p)
#显示图形
plt.show()