今日课程内容
-
内容回顾
-
作业讲解
-
推断统计
两配对样本检测
二项分布
卡方检测
游程检测
内容回顾
推断统计:
概念:利用样本数据推断总体参数的方法
统计学概念:推断
包括:参数估计、假设检验
参数估计:总体参数未知,利用样本推断出总体参数。
例如:通过2w个自愿者统计工资为8k,推断出上海的平均工资为8k
假设检验:总体参数已知,利用样本数据验证该假设
例如:中国人的平均身高为168,通过20w人口的数据,验证推断
假设检验的方法:
零假设(不想看到的结果,'=')、对立假设(想看到的结果)
检验的方式
参数:
1.均值检验
案例:9月和10月收入是否有差异,通过均值检验,查看显示值p。
2.单样本检验:针对一组数据,进行检验
通过样本或者某个特定值,作用是推断样本和特定值是否有差异。
案例:通过9月和10月的数据,验证当年的平均收入值。
验证6000、5000、4500元
3.两独立样本T检验:针对2组数据,进行检验
作用:检验样本数据之间的总体均数是否存在差异
方差性检验
作用:检验2个样本数据的离散程度是否一致。
作业讲解
作业:有1款降压药,分为常规药、新药2组数据,验证新药是否有效。
思路:先研究新药和常规药是否存在差异,通过均值或者差值的均值判断是否有效。
通过方差性检验,测出2组数据,离散程度大体一致,通过显示性P值得出2组数据有差异,再通过均值,得知新药有效果。
[1,2,3,4,5]
[]
[1,110,2,110...]
FOR X IN [XX]:
[].APPEND(X)
[].APPEND(100)
两配对样本T检验
两对立样本和两配对样本的区别:
对立样本针对的是两组数据:
新药数据、常规药数据
配对样本针对的是一组类型的2个数据:
人的早上及晚上的身高数据,进行检验。
非参数检验
1.卡方检验
主要目的用来检查频数于期望频数是否吻合。
期望值:
自己提出期望值
计算检验统计量的期望值
# 公式:总有效值/总数*单项目数
卡方值:卡方值越大,越偏离
卡方值越小,偏差越小,越符合实际,当卡方值为0时,完全符合。
一般采用四格卡方检验
2.二项分布检验
男女出生率:默认五五开,通过单尾/双尾检验
商品合格率:
灯泡寿命的合格率:95%,960
零假设为符合标准
广告投放的宣传效果
零假设:无效
3.游程检验
作用:检验数据的随机性
检验公司明年是否盈利
查看盈利数据是否随机
零假设是随机的
检验方法总结
# 参数检验:已知分布(如正态分布)为假定条件,对总体参数进行估计或检验
假设:对一个或多个总体参数值的一段描述
零假设H0(你想反对的结果)原则注意”=“ 只能是零假设。
中国人的身高=175
对立假设Ha(你想看到的结果)
Ha≠175 双尾检验
Ha>175 或 Ha<175 单尾检验
# T检验
1.均值检验
抽样总体进行分析,但个体有差异,所以样本统计量与总体参数有区别
2.单样本检验
检验单个变量的均值与指定的检验值之间是否存在显著性差异,再者,样本均值与总体均值之间的差异显著性检验最好前提:总体满足正态分布
显著性>5%,支持原假设H0
显著性<5%,推翻原假设H0
3.独立样本T检验
在两个样本相互独立的前提下,检验两个样本的总体均数是否存在显著差异
4.方差齐性检验
比较两组数据的分布(离散程度)是否一致
5.两配对样本T检验
数据是成对出现的,是两个样本的特殊状态
# 非参数检验:总体分布未知,通过样本进行检验总体分布的假设
6.卡方检验
用来检验观察频数与期望频数是否吻合。
判定:当观察频数与理论频数越接近,值越小,支持原假设;
观察频数与理论频数相差越大,不支持原假设。
每格期望值:总有效值/总数*单项目数
7.二项分布检验
事件的结果只有两种,要么发生,要么不发生
性别比例是否为0.5
灯泡合格率
8.游程检验
利用游程数所做的单样本随机性的检验方法,判断观测值的顺序是否是随机