四、假设检验之参数估计(一)

两变量关系综述

参数估计

  • 描述性统计是判断两个变量之间有没有关系
  • 假设检验是根据所得到的关系,判断其关系有没有意义。
    整个统计学的检验是通过检验不同分组的均值的差值是否为0来判断两个变量之间是否有关系。

核心思路

  • 第一步:描述性统计判断两变量之间的关系,即一个变量发生变化,另外一个变量发生均值上的变化则有关系。
  • 第二步:两个变量有关系,则两个变量是不独立的,则变量X可以预测变量Y,则Y和X必然可以建立起一个函数关系。

统计分析的检验方法

-分类变量连续变量
分类变量交叉表分析 卡方检验两样本T检验(二分类)方差分析(多分类)
连续变量两样本T检验(二分类)方差分析(多分类)相关分析

基本介绍

统计检验的数据一个来自数据,一个来自假设。
得到的数据永远都是样本数据,一般不会拿到所有数据。(除对历史进行预测)

-总体参数样本统计量
均值μ x − \overset{-}{x} x
方差 σ 2 \sigma^2 σ2 S 2 S^2 S2
标准差 σ \sigma σS

样本的统计量是随机变量,因为样本数据是随机的。

点估计

样本均值 x − \overset{-}{x} x 估计 μ:
x − = 1 n ∑ i = 1 n X i {\overset{-}{x}}=\frac{1}{n}\sum_{i=1}^{n}X_i x=n1i=1nXi
样本方差 S 估计 σ \sigma σ
S 2 = 1 n − 1 ∑ i = 1 n ( X i − x − ) 2 S^2=\frac{1}{n-1}\sum_{i=1}^{n}{(X_i - \overset{-}{x})^2} S2=n11i=1n(Xix)2

区间估计

置信度:总体的均值落在区间之内的概率。
以正态分布为例,以样本均值为中心,一倍标准差概率为68%,两倍标准差是95%,三倍标准差是99%。

  • 进行区间估计是在数据满足正态分布的情况下进行,若数据呈正态分布,其均值也一定呈正态分布。
  • (中心极限定理) 如果数据不满足正态分布,那么当数据是独立同分布的且数据样本量足够大(>30个样本量),则均值满足正态分布。
求解置信区间

步骤一: 求解样本均值 x − {\overset{-}{x}} x和样本的标准差S

步骤二: 根据标准差S求解样本的均值标准差 S x − S_{\overset{-}{x}} Sx(即标准误) S x − = S n S_{\overset{-}{x}}=\frac{S}{\sqrt{n}} Sx=n S
其中S:总体标准差,n:每次抽取的样本量

步骤三: 得知置信区间( x − − n S x − \overset{-}{x} - nS_{\overset{-}{x}} xnSx, x − + n S x − \overset{-}{x} + nS_{\overset{-}{x}} x+nSx),n自定义

案例 - 北京房价增长情况
  • 1 导入样本数据:房屋小区 + 增长率
#导入数据
import os
os.chdir(r'E:\脚本\6inference')

import pandas as pd
house_price_gr=pd.read_csv(r'house_price_gr.csv',encoding='gbk')
house_price_gr

在这里插入图片描述

  • 2 计算样本均值,得到11.0061%
#描述性统计
house_price_gr.describe(include='all')

在这里插入图片描述

  • 3 绘图看分布情况,判断是否符合正态分布
get_ipython().magic('matplotlib inline')
import seaborn as sns
from scipy import stats

sns.distplot(house_price_gr.rate, kde=True, fit=stats.norm)

在这里插入图片描述

  • 4 计算置信区间
# 设定95%的置信区间
se = house_price_gr.rate.std() / len(house_price_gr) ** 0.5  #计算标准误
LB = house_price_gr.rate.mean() - 1.98 * se# 设定下限:数据均值 - 2*标准误
UB = house_price_gr.rate.mean() + 1.98 * se#设定上限:数据均值 + 2*标准误
(LB, UB)

Out[1]:(0.10337882853175007, 0.11674316487209624)

综上所述,样本选取了150个小区的房价增长率,得到房价同比增长率均值为11%,95%的置信区间为(0.10337882853175007, 0.11674316487209624),所以北京市房价同比增长率(样本均值)<10.3%的概率不超过2.5%。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值