推断统计python化(参数估计,假设检验与 t检验)

文章介绍了如何在Python中利用scipy库进行统计分析,包括计算置信区间,使用t分布估计样本均值,以及进行单样本和独立样本t检验,以检验沪深300收益率的均值和差异。
摘要由CSDN通过智能技术生成

interval(alpha,df,loc,scale)

  • alpha为置信水平

  • df是检验量的自由度

  • loc为样本均值

  • scale为标准差

在这里插入图片描述

假设我们要估计一批产品的重量的期望,抽样了十个进行称重得到重量为为:

10.1, 10, 9.8, 10.5, 9.7, 10.1, 9.9, 10.2, 10.3, 9.9

假设所称出物体重量服从正态分布,我们可以用interval()求置信度为0.95的置信区间:

from scipy import stats

import numpy as np

x = [10.1, 10, 9.8, 10.5, 9.7, 10.1, 9.9, 10.2, 10.3, 9.9]

np.mean(x) #求x均值

stats.sem(x) # 求样本的标准误

样本均值服从t分布,样本均值的标准差为标准误

在区间估计时,用标准误来表示样本均值的标准差

stats.t.interval(0.95, len(x)-1, np.mean(x),stats.sem(x))

结果如下:

在这里插入图片描述


2. 案例分析

==============================================================================

沪深300(399300.SZ)收益率均值的参数估计

以近一年数据为样本计算

调取数据

import numpy as np

import tushare as ts

import pandas as pd

token = ‘Your Token’ # 输入你的接口密匙,获取方式及相关权限见Tushare官网。

pro = ts.pro_api(token)

df = pro.index_daily(ts_code=‘399300.SZ’)

df[‘trade_date’] = pd.to_datetime(df[‘trade_date’])

df.set_index([‘trade_date’], inplace=True) # 将日期列作为行索引

df = df.sort_index()

提取沪深300的收益率序列

Retindex=df.pct_chg[‘2020’]

绘制沪深300收益率的直方图

plt.hist(Retindex)

Retindex.hist()

结果如图所示:

在这里插入图片描述

from scipy import stats

import matplotlib.pyplot as plt

求沪深300收益率的均值

mu = Retindex.mean()

求沪深300收益率的标准差

sigma = Retindex.std()

在直方图上添加正态分布曲线

fig = plt.figure()

ax1 = ax1 = fig.add_subplot(111)

ax1.plot(np.arange(-6, 6.02, 0.02), stats.norm.pdf(np.arange(-6, 6.02, 0.02), mu, sigma), ‘r’)

ax2 = ax1.twinx()

ax2.hist(Retindex)

plt.show()

结果如图:

在这里插入图片描述

stats.t.interval(0.95, len(Retindex)-1, mu, stats.sem(Retindex))

结果如下:

在这里插入图片描述

(备注:这里序列中的收益率如-0.02是以-2来表示的,0.032则以3.2表示,而不是0.032。所以得到的置信区间结果不能读错了,-0.07意思不是跌了七个点。)


3. 假设检验

==============================================================================

假设检验(Hypothesis Test)是推断统计的另一种重要的方法。

3.1 假设检验概述


参数估计的主要任务是猜测参数的取值,而假设检验的着重点在于检验参数的取值是否等于某个目标值。

假设检验一般有两个隐含的思想:

  • 小概率事件思想 。即小概率事件在一次试验中是不可能发生的,如果在我们的假设下出现了一个小概率事件,则认为我们的假设是错误的。

  • 反证法思想 。反证法思想为先假设我们提出的假设是正确的,然后在该条件下检验观测到的事件是否是小概率事件。如果是则可以否定我们的假设。否则,就无法否定。

假设检验的基本步骤如下:

(1) 先根据实际问题的要求提出一个论断,称之为原假设零假设(Null Hypothesis) ,记为H0。同时提出一个与之互为反命题的备择假设(Alternative Hypothesis) ,记为H1

(2) 然后在H0正确的条件下,求出样本数据出现的频率,看我们手中的样本是不是小概率事件。

(3) 最后如果样本是小概率事件,那么就认为原假设是错误的。在统计学上,我们称之为拒绝原假设。否则我们不能拒绝H0的决策。

对于原假设和备择假设有如下的选择原则:

  • 原假设应该是受保护的,不应该轻易被拒绝。

  • 备择假设是检验者所希望的结果。

  • 等号永远出现在原假设中。


3.2 两类错误


  • 第一类错误(Type I Error):拒绝了本来正确的原假设(弃真)。

犯第一类错误的概率记为α。

  • 第二类错误(Type II Error):没有拒绝原本是错误的原假设(取伪)。

犯第二类错误的概率记为β。

  • 假设检验中这两类错误都难以避免。我们无法同时控制两个错误发生的概率,如果降低想要α,β就会被提高。我们通常需要权衡这两种错误,一般我们选择控制α不限制β

3.3 显著性水平与p值


为控制α,我们往往将α值固定,同时使得:

P ( 拒 绝 H 0 ∣ H 0 为 真 ) ≤ α \displaystyle P(拒绝H_0|H_0为真)\leq \alpha P(拒绝H0​∣H0​为真)≤α

在统计学上,我们称 α \displaystyle \alpha α为显著性水平(Significance Level)。常见的显著性水平有0.1, 0.05, 0.025。

为了确定一个事件是不是小概率事件,我们需要了解其发生概率。但是对于连续型随机变量,其取某个具体值的概率为0,我们无法计算。所以就有了使用p值的方法。

我们算出假设在原假设正确条件下,和当前样本中一样极端或更极端的情况出现的概率,这个概率就是p值(p-value)。


3.4 确定小概率事件


判断一个事件是否是小概率事件的一个基本原则:当p值小于α时,我们认为样本为小概率事件。

而对于p指与α的比较,可采取两种方法:临界值检验法(Critical Value Approach)显著性检验法(p-value approch)

  • 临界值检验法:

使用临界值检验法首先要使用样本数据构建一个用于检验的统计量,这个统计量往往是总体参数的点估计量。然后我们需要确定能够拒绝原假设的最大p值。根据小概率事件的判断原则,这个最大值即是α。然后根据α和统计量所服从的概率分布可以求得临界值。求得临界值后用统计量和与该临界值进行比较,如果统计量与临界值的偏差大于该临界值与原假设的偏差,那么当前样本就与临界值一样极端,其p值也就会小于α。如此以来我们就认为当前样本是小概率事件,应该拒绝原假设。

  • 显著性检验法

显著性检验与临界值检验法较为类似,同样需要先构建一个用于检验的统计量,与临界值方法不同的是,我们直接根据原假设和统计量的概率分布求解其p值,然后将p值与α进行比较,从而拒绝原假设。


4. t检验

=============================================================================

根据构建统计量服从的概率分布,我们所用的参数检验可以分为z检验、t检验、F检验等。其中,t检验所使用的统计量服从t分布,常常用于检验标准差 σ \displaystyle \sigma σ未知的、服从正态分布的总体的均值。

常见的t检验主要有单样本t检验(One Sample t Test)配对样本t检验(Paired Sample t Test)独立样本t检验(Independent Sample Test)

  • 单样本t检验是检验单个变量的均值与目标值之间是否存在差异。如果总体均值已知,样本均值与总体均值之间差异的显著性检验属于单样本t检验。

  • 独立样本t检验用于检验两组来自独立总体的样本 其独立总体的均值是否一样。如果两组样本彼此不独立,则应该使用配对样本t检验。

  • 配对样本t检验用于检验两个相关的样本(配对样本)是否来自具有相同均值的总体。


4.1 单样本t检验


比较:总体均值u与指定检验值u0是否存在显著性差异。

原假设: H0:u = u0

备择假设:H1:u ≠ u0

前提:总体服从正态分布 N ( u , σ 2 ) \displaystyle N(u,\sigma^2 ) N(u,σ2),u为均值, σ 2 \displaystyle \sigma^2 σ2为总体方差。

如果样本容量为n,样本均值为 X ‾ \displaystyle \overline{X} X,在原假设成立的条件下,我们构造以下统计量:

t = X ‾ − u 0 s / n \displaystyle t=\frac{\overline X-u_0}{s/\sqrt n} t=s/n ​X−u0​​~ t ( n − 1 ) \displaystyle t(n-1) t(n−1)

其中, s = 1 n − 1 ∑ i = 1 n ( x i − x ‾ ) 2 \displaystyle s=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline x)^2} s=n−11​i=1∑n​(xi​−x)2 ​, 为样本标准差。

将样本均值与样本标准差代入该统计量,就可以得到该统计量的值,然后就可以根据t分布的分布函数计算出p值并与显著性水平α比较,或是与显著性水平α下的临界值进行比较。

接着使用上边代码调取的数据

用单样本t检验2020年沪深300的收益率均值是否为0

stats.ttest_1samp(Retindex,0) #注意躲坑:1samp的首个字符不是字母l,是数字1

结果:

在这里插入图片描述

这里p值为0.2355742>0.05,所以在5%的置信水平下不能拒绝原假设。进而,可以推断2020年沪深300收益率均值为0。

4.2 独立样本t检验


用独立样本t检验来检验上证指数和深证成指2020年的收益率是否相等。

调取数据

最后

🍅 硬核资料:关注即可领取PPT模板、简历模板、行业经典书籍PDF。
🍅 技术互助:技术群大佬指点迷津,你的问题可能不是问题,求资源在群里喊一声。
🍅 面试题库:由技术群里的小伙伴们共同投稿,热乎的大厂面试真题,持续更新中。
🍅 知识体系:含编程语言、算法、大数据生态圈组件(Mysql、Hive、Spark、Flink)、数据仓库、Python、前端等等。

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里无偿获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 9
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
一. 课程介绍本课程结合Python进行统计与数据分析的原理讲解与实战,涵盖了大部分统计&数据分析模型,特别是当前比较主流的算法:参数估计假设检验、线性回归、广义线性回归、Lasso、岭回归、广义可加模型、回归样条等;机器学习经常用到的主成分分析、因子分析、典型相关分析、聚类分析等;各种非参数统计模型,包括非参数统计推断、尺度推断、位置推断、非参数核密度估计、非参数回归等。本课程主要针对有一定Python编程基础、即将毕业参加工作的的大三大四学生,或者已经参加工作需要提升自己数据分析能力以及转行从事IT行业尤其是数据&大数据分析工作的初入职场者,或者正在攻读硕博士学位需要学习和掌握量研究方法的研究生。本课程对于即将从事机器学习、深度学习&人工智能相关工作的程序员也有很大帮助,有利于打好坚实的理论基础。二. 课程目录第0章 课程导学第1章 数据描述性分析1.1 描述统计量1.2 数据的分布1.3 概率分布函数的图形1.4 直方图、经验分布函数与QQ图1.5 多元数据的数据特征与相关性分析1.6 多元数据的基本图形表示第2章 参数估计2.1 点估计2.2 区间估计第3章 假设检验3.1 基本原理3.2 参数检验第4章 回归分析4.1 回归分析的概念与一元线性回归4.2 多元线性回归及统计量解析4.3 逐步回归与模型选择4.4 回归诊断4.5 广义线性回归4.6 非线性回归第5章 方差分析5.1 单因素方差分析5.2 双因素方差分析第6章 判别分析与聚类分析6.1 判别分析6.2 聚类分析第7章 主成分分析、因子分析与典型相关分析7.1 主成分分析7.2 因子分析7.3 典型相关分析第8章 非参数统计8.1 经验分布和分布探索8.2 单样本非参数统计推断8.3 两独立样本的位置与尺度判断8.4 多组数据位置推断8.5 分类数据的关联分析8.6 秩相关与分位数回归8.7 非参数密度估计8.8 一元非参数回归三. 讲师简介主讲人李进华博士,本、硕、博皆就读于武汉大学信息管理学院,2005年获博士学位进入211高校任教,2012年受聘为教授。从事信息管理与数据分析方面的教学、科研与系统开发工作20余年,具备深厚理论修养和丰富实战经验。是中国最早从事Java开发的程序员和Oracle数据库的DBA之一。曾带领团队开发《葛洲坝集团三峡工程指挥中心三期工程施工管理系统》、《湖北省财政厅国有企事业单位资产管理系统》等大型MIS。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值