从零开始数据科学与机器学习算法-知识点补充-00

知识拓展-python与统计学

1.Descriptive statistics 描述性统计

2.Inferential statistics 推断性统计:步骤如下:
sample样本(sample statistic样本统计) --sampling抽样(estimate估计)–> 总体population(parameter参数)

1)sampling 先抽样
2)estimate 然后估计:

  • 1.Point estimation
    • 例如:想了解一个学校学生的身高情况,就可以随机抽取一部分学生测量他们的身高,得到一个平均值,再用这个样本的均值去估计整体学生的身高情况,就是点估计
  • 2.Confidence interval
    • 区间估计就是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。 另外一种说法,区间估计是从点估计值和抽样标准误差出发,按给定的概率值建立包含待估参数的区间,这个给定的概率值称为置信度或置信水平,这个建立起来的包含待估计参数的区间称为置信区间。 置信区间是根据样本信息推导出来的可能包含总体参数的数值区间,置信水平表示置信区间的可信度;例如某学校学生的平均身高的区间估计:有95%的置信水平可以认为该校学生的平均身高为1.4米到1.5米之间,(1.4,1.5)为置信区间,95%是置信水平,即有95%的信心认为这个区间包含该校学生的平均身高。
      3)Hypothesis test 最后假设检验

在这里插入图片描述

假设性检验的核心思想

在这里插入图片描述
在这里插入图片描述

有偏与无偏估计

在这里插入图片描述

## 随机生成1-10的数字生成10万个
%matplotlib inline
import matplotlib.pyplot as plt
from IPython.core.pylabtools import figsize
figsize(15,5)
import pandas as pd 
import numpy as np

np.random.seed(42)
# The population N's size is 100000
N=100000
population = pd.Series(np.random.randint(1,11,N)) # 随机生成1-10的数字生成N个
print(population)

在这里插入图片描述

# 模拟数据抽样
samples={}
# The size of each sample 每个样本的大小
n=30
# We are going to draw 500 times of samples and each time ,we are going to take 30 of samples.我们将抽取500次样品,每次抽取30个样品。
num_of_samples= 500
for i in range(num_of_samples):
    samples[i]= population.sample(n).reset_index(drop=True)

samples=pd.DataFrame(samples) # 放入datafram中
samples

在这里插入图片描述

# (Delta degree of freedom) ddof=0 diveded by n ddof=1 divided by n-1
biased_samples=samples.var(ddof=0).to_frame() # ddof=0 
biased_samples

在这里插入图片描述
在这里插入图片描述

biased_samples=biased_samples.expanding().mean() # 有偏
biased_samples

在这里插入图片描述

biased_samples.columns=["biased var estimate (divided by n)"]
biased_samples

在这里插入图片描述
在这里插入图片描述

unbiased_sample=samples.var(ddof=1).to_frame()#无偏
unbiased_sample

在这里插入图片描述

unbiased_sample=unbiased_sample.expanding().mean()
unbiased_sample

在这里插入图片描述

unbiased_sample.columns=["unbiased var estimate(divided by n-1)"]
unbiased_sample

在这里插入图片描述

ax=unbiased_sample.plot()
biased_samples.plot(ax=ax)
real_population_variance=pd.Series(population.var(ddof=0),index=samples.columns)
real_population_variance.plot()

在这里插入图片描述
# 未完结后续更新
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值