统计与概率分不开,概率论是统计的基础。概率思维
统计思维
概率分布使用python的Scipy模块的statistc函数计算分布,并用matplotlib绘制图形。
一、概率思维
1、随机变量
是量化随机事件的函数,用于将随机事件每一个可能出现的事件结果赋予一个数值。
2、概率分布
分类:
1) 离散随机变量:结果可以列出,明天是否下雨、抛硬币
2) 连续随机变量:变量中有无数结果,明天下雨量,结果有很多
分布:数据在统计图中的形状叫做它的分布
概率分布=随机变量+概率+分布
离散随机变量——概率质量函数——离散概率分布
连续随机变量——概率密度函数————连续概率分布
3、离散概率分布(python实现)
1)伯努利分布
import scipy.stats as stats
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
X=np.arange(0,2,1)
p=0.5
pList=stats.bernoulli.pmf(X,p)
pList
plt.plot(X,pList,marker='o',linestyle='None')
plt.vlines(X,0,pList)
plt.xlabel('随机变量,抛硬币1次')
plt.ylabel('概率')
plt.title('伯努利分布:p=%.2f'% p)
plt.show()
2 ) 二项分布
n=5
p=0.5
X=np.arange(0,n+1,1)
X
pList=stats.binom.pmf(X,n,p)
pList
plt.plot(X,pList,marker='o',linestyle='None')
plt.vlines(X,0,pList)
plt.xlabel('随机变量:抛硬币正面朝上次数')
plt.ylabel('概率')
plt.title('二项分布:n=%i,p=%.2f' %(n,p))
plt.show()
3)几何分布
k = 5
p = 0.6
X =np.arange(1,k+1,1)
pList=stats.geom.pmf(X,p)
plt.plot(X,pList,marker='o',linestyle='None')
plt.vlines(X,0,pList)
plt.xlabel('随机变量:表白第k次才首次成功')
plt.ylabel('概率')
plt.title('几何分布:p=%.2f' % p)
plt.show()
4) 柏松分布
mu = 2
k = 4
X = np.arange(0,k+1,1)
pList=stats.poisson.pmf(X,mu)
plt.plot(X,pList,marker='o',linestyle='None')
plt.vlines(X,0,pList)
plt.xlabel('随机变量:某路口发生k次事故')
plt.ylabel('概率')
plt.title('柏松分布:mu=%i' % mu)
plt.show()
4、连续概率分布
5、概率思维总结
二、统计思维
1、样本与总体
总体:是研究对象的整体,或者从整体中随机抽取的可以代表整体。
样本数量:有多少个样本
样本大小:每个样本中有多少数据
python随机抽样
2、中心极限定理
中心极限定理:
1) 样本平均值约等于总体平均值
2) 不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的平均值周围,并且呈正态分布
3、使用样本估计总体
中心极限定理作用:
1) 用样本来估计总体
2) 根据在总体信息,判断某个样品是否属于总体(3个标准差,概率97%)
4、避免偏见
5、统计思维