https://www.zhihu.com/question/26419030/answer/274472266
点估计:用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点估计。
区间估计:是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到;
区间估计,是参数估计的一种形式。1934年,由统计学家J.奈曼所创立的一种严格的区间估计理论。置信系数是这个理论中最为基本的概念。通过从总体中抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,以作为总体的分布参数(或参数的函数)的真值所在范围的估计。
点估计与区间估计区别:点估计是使用一个值来代替总体参数值,区间估计是使用一个置信区间与置信度,表示总体参数有多少可能(置信度)会在该范围(置信区间)内;
置信区间:构造100个区间,其中大约有95个会包含均值;
置信区间计算公式:
Python代码计算:
import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
iris = load_iris()
data = pd.DataFrame(iris.data,columns = iris.feature_names)
##样本数多于30,可以作为Z分布
mean = data['petal width (cm)'].mean()
n = len(data)
std = data['petal width (cm)'].std()
a = (mean-1.96*(std/np.sqrt(n)),mean+1.96*(std/np.sqrt(n)))
print(a)
#a = (1.0765355119524544, 1.32079782138088)
###置信区间为:(1.0765355119524544, 1.32079782138088)