两变量关系综述
参数估计
- 描述性统计是判断两个变量之间有没有关系
- 假设检验是根据所得到的关系,判断其关系有没有意义。
整个统计学的检验是通过检验不同分组的均值的差值是否为0来判断两个变量之间是否有关系。
核心思路
- 第一步:描述性统计判断两变量之间的关系,即一个变量发生变化,另外一个变量发生均值上的变化则有关系。
- 第二步:两个变量有关系,则两个变量是不独立的,则变量X可以预测变量Y,则Y和X必然可以建立起一个函数关系。
统计分析的检验方法
- | 分类变量 | 连续变量 |
---|---|---|
分类变量 | 交叉表分析 卡方检验 | 两样本T检验(二分类)方差分析(多分类) |
连续变量 | 两样本T检验(二分类)方差分析(多分类) | 相关分析 |
基本介绍
统计检验的数据一个来自数据,一个来自假设。
得到的数据永远都是样本数据,一般不会拿到所有数据。(除对历史进行预测)
- | 总体参数 | 样本统计量 |
---|---|---|
均值 | μ | x − \overset{-}{x} x− |
方差 | σ 2 \sigma^2 σ2 | S 2 S^2 S2 |
标准差 | σ \sigma σ | S |
样本的统计量是随机变量,因为样本数据是随机的。
点估计
样本均值
x
−
\overset{-}{x}
x− 估计 μ:
x
−
=
1
n
∑
i
=
1
n
X
i
{\overset{-}{x}}=\frac{1}{n}\sum_{i=1}^{n}X_i
x−=n1i=1∑nXi
样本方差 S 估计
σ
\sigma
σ:
S
2
=
1
n
−
1
∑
i
=
1
n
(
X
i
−
x
−
)
2
S^2=\frac{1}{n-1}\sum_{i=1}^{n}{(X_i - \overset{-}{x})^2}
S2=n−11i=1∑n(Xi−x−)2
区间估计
置信度:总体的均值落在区间之内的概率。
以正态分布为例,以样本均值为中心,一倍标准差概率为68%,两倍标准差是95%,三倍标准差是99%。
- 进行区间估计是在数据满足正态分布的情况下进行,若数据呈正态分布,其均值也一定呈正态分布。
- (中心极限定理) 如果数据不满足正态分布,那么当数据是独立同分布的且数据样本量足够大(>30个样本量),则均值满足正态分布。
求解置信区间
步骤一: 求解样本均值 x − {\overset{-}{x}} x−和样本的标准差S
步骤二: 根据标准差S求解样本的均值标准差
S
x
−
S_{\overset{-}{x}}
Sx−(即标准误)
S
x
−
=
S
n
S_{\overset{-}{x}}=\frac{S}{\sqrt{n}}
Sx−=nS
其中S:总体标准差,n:每次抽取的样本量
步骤三: 得知置信区间( x − − n S x − \overset{-}{x} - nS_{\overset{-}{x}} x−−nSx−, x − + n S x − \overset{-}{x} + nS_{\overset{-}{x}} x−+nSx−),n自定义
案例 - 北京房价增长情况
- 1 导入样本数据:房屋小区 + 增长率
#导入数据
import os
os.chdir(r'E:\脚本\6inference')
import pandas as pd
house_price_gr=pd.read_csv(r'house_price_gr.csv',encoding='gbk')
house_price_gr
- 2 计算样本均值,得到11.0061%
#描述性统计
house_price_gr.describe(include='all')
- 3 绘图看分布情况,判断是否符合正态分布
get_ipython().magic('matplotlib inline')
import seaborn as sns
from scipy import stats
sns.distplot(house_price_gr.rate, kde=True, fit=stats.norm)
- 4 计算置信区间
# 设定95%的置信区间
se = house_price_gr.rate.std() / len(house_price_gr) ** 0.5 #计算标准误
LB = house_price_gr.rate.mean() - 1.98 * se# 设定下限:数据均值 - 2*标准误
UB = house_price_gr.rate.mean() + 1.98 * se#设定上限:数据均值 + 2*标准误
(LB, UB)
Out[1]:(0.10337882853175007, 0.11674316487209624)
综上所述,样本选取了150个小区的房价增长率,得到房价同比增长率均值为11%,95%的置信区间为(0.10337882853175007, 0.11674316487209624),所以北京市房价同比增长率(样本均值)<10.3%的概率不超过2.5%。