Python统计学基础

本文介绍了Python在统计学中的应用,包括描述性统计(数据类型、位置、离散度)、随机变量(概率分布、期望与方差)、推断统计(区间估计、t检验、方差分析)以及回归分析(一元、多元线性回归)。详细讲解了各种统计概念并提供了Python实现代码。
摘要由CSDN通过智能技术生成

描述性统计

数据类型

数据可分为两类:
1、定性数据:对事物性质进行描述的数据,通常只具有有限个取值,往往用于描述类别
2、定量数据:呈现事物数量特征的数据,是由不同数字组成的,数字取值是可以比较大小的

数据的位置

  • 样本平均数 mean()
  • 中位数 mdedian()
  • 众数 mode() 返回Series类型数据,第二个数是众数
  • 百分位数 quantile(i) for i in [0.25,0.75] 返回下四分位数和上四分位数

数据的离散度

  • 极差 max()-min()
  • 平均绝对偏差 mad()
  • 方差 var()
  • 标准差 std()

随机变量简介

概率与概率分布

概率(Probability)是用来刻画事物不确定性的一种测度,根据概率的大小,我们可以判断不确定性的高低。概率的取值介于0和1之间,表明一个特定事件以多大的可能性发生。

离散型随机变量

在Python中,通过NumPy包的random模块中的choice()来生成特定的概率质量函数的随机数
choice(a,size=None,replace=True,p=None)

  • 参数a:指明随机变量所有可能的取值
  • 参数size:表示所要生成的随机数数组的大小
  • 参数replace:决定了生成随机数时是否是有放回的
  • 参数p:为了一个与x等长的向量,指定了每种结果出现的可能性
RandomNumber = np.random.choice([1,2,3,4,5],size=100,replace=True,p=[0.1,0.1,0.3,0.3,0.2])

连续型随机变量

概率密度函数 和 累计分布函数 都是用来刻画随机变量之不确定性的,描述的是总体的特征。用Python实现
from scipy import stats

  • 概率密度函数 gaussian_kde()
  • 累计分布函数 cumsum()

期望值与方差

二项分布

Numpy库中
binomial(n,p,size=None)

  • 参数n:表示进行伯努利试验的次数
  • 参数p:表示伯努利变量取值为1的概率;
  • 参数siza:表示生产的随机数的数量
    例子:np.random.binomial(100,0.5,size=20)

正态分布

normal(loc=0.0,scale=1.0,size=None)

  • 参数scale:表示正态分布的 标准差,默认为1
  • 参数loc:表示正态分布的均值;
  • 参数siza:表示生产的随机数的数量
    概率密度值和累计密度值童谣可以使用SciPy的stats模块中函数来计算
#生产5个标准正态分布随机数
Normal = np.random.normal(size=8) 
  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值