统计学基础知识
视频参考:
http://open.163.com/newview/movie/free?pid=M82IC6GQU&mid=M83JBFVGI
笔记参考:
https://www.jianshu.com/p/b509477fba1c
https://www.cnblogs.com/Joeyyoung/p/10212733.html
常见图形
箱线图
总体与样本
一元
-
样本
-
-
期望E(X)
随机变量的期望值其实是总体的均值,但有时由于总体样本无限多,用均值计算方法很难计算,故提出期望计算均值的方法.其思想是用频率作为权重计算出所有结果的加权平均值。
-
总体
-
多元(矩阵表示)
-
协方差
反映的是两个变量间的关系
正相关,负向关。相互独立
方差分析
注意行是指维度,列是指样本
n-1,指样本的个数减一
随机变量
随机变量通常是一个函数,用于量化随机过程。
随机变量通常用大写字母X,Y,Z等表示,而传统变量通常用小写字母x,y,z表示
区分:
离散型随机变量:只要是能够用我们日常使用的量词可以度量的取值,比如次数,个数,块数等。
连续型随机变量:只要无法用这些量词度量,且取值可以取到小数点2位,3位甚至无限多位的时候。
参考:https://www.jianshu.com/p/b570b1ba92bb
离散型随机变量
明天是否下雨,用随机变量X来表示,它只有0,1两种值即取值有限且不连续,X是离散型随机变量
-
概率分布
- 把所有的情况用概率表示出来
-
概率函数
-
用函数的形式来表达概率。
eg:
pi=P(X=ai)(i=1,2,3,4,5,6)
在这个函数里,自变量(X)是随机变量的取值,因变量(pi)是取值的概率。这就叫啥,这叫用数学语言来表示自然现象!它就代表了每个取值的概率,所以顺理成章的它就叫做了X的概率函数。
从公式上来看,概率函数一次只能表示一个取值的概率。比如P(X=1)=1/6,这代表用概率函数的形式来表示,当随机变量取值为1的概率为1/6,一次只能代表一个随机变量的取值。
-
-
分布函数
- 全称:概率分布函数(2的积累–累积概率函数)
连续型随机变量
明天下雨量,用Y表示,它可以取连续值0.1,0.2,0.5,0.511等,可以是无穷的数据,Y是连续型随机变量。
-
概率密度函数——》f(x)
-
概率密度分布函数——》F(x)
-
常见分布模型
-
离散型
-
二项分布系列
-
01分布
- 定义:就是对于一个事件只有2种结果,eg:抛硬币
- 数学期望和方差 :
-
二项分布
- 定义:N次的伯努利实验(对01分布重复n次)
- 数学期望和方差:
二项分布的均值和方差分别为Np和Np(1-p)
-
Beta分布
二项分布概率的概率分布
参考:https://blog.csdn.net/a358463121/article/details/52562940
-
多项分布
- 定义:由二项分布的2种情况变为多种情况
-
Dirichlet分布
多项分布概率的概率分布
参考:https://mp.weixin.qq.com/s/bOchsmHTINKKlyabCQKMSg
-
泊松分布
泊松分布是单位时间内事件发生的次数的概率
它是用来求取某个时间段内发生事情x的概率有多大且其是离散分布
参考:https://www.matongxue.com/madocs/858
-
-
-
连续型
- 正态分布
样本推测总体
假设检验与区间估计都是根据样本信息推断总体分布。两者可以相互装转换唯一的区别是参数知不知道的问题。
举例来说:统计全校学生(总体)的平均上网时间(参数),如果参数未知,通过样本进行推断则是区间估计。
如果有人已经得到平均上网时间(参数),而你不知道这个参数可不可靠,则是假设检验,换句话说无假设不检验。
区间估计
-
置信区间和置信水平
置信区间–>误差范围
置信水平–>在这个区间内包含总体均值的一个可信程度eg:我们相信,有95%的几率每个人的智商在[95 105]之间
-
Z检验(正态分布(n>=30))
求解具体的步骤:
- 确定要求解的问题是什么
比如我们想要通过样本来估计总体的平均值 - 求样本的平均值和标准误差
注意:总体,样本,样本均值抽样分布是3个东西,一定要区分开。
计算样本均值 ,样本方差(除于n-1)
------某些时候可以近似为总体的均值和总体的方差(标准差)
使用中间键——样本均值的抽样调查,
抽样后的均值=总体的均值,
标准差=总体地标准差/(抽样的数目n)^0.5最后都是通过中间键的标准差=总体地标准差/(抽样的数目n)^0.5,(查表Z表或者反推)
标准差±多少个标准差
均值±多少个标准差- 确定置信水平
常用的置信水平是95%,因为这样可以保证样本的平均值会落在总体平均值2个标准误差范围内 - 查找z表格,求z值
如果你的置信水平是图中的95%,可以直接获取到对应的z值 - 计算置信区间
A=样本平均值- z标准误差
b=样本平均值+ z标准误差
- 确定要求解的问题是什么
-
T检验( T分布(n<30))
T分布只是正态分布的一种近似,是正态分布在小样本时的形态
对于样本数目小于30的,其做法与查Z表的差不多
但是这里查的是T表并且自由度是n-1
-
-
显著水平a和p值
显著水平a就是对应的表中的百分比(1%,5%,10%)
p值就是查表对应的具体数值显著水平和P值均值都是一个临界值,用来判断结果是否属于拒绝域——目的是否拒绝原假设
假设检验
步骤:
第一步、
(原假设) H0:
(备择假设) H1:
显著水平是
第二步、
在H0为真的条件下计算某个数值
如果其极端情况比显著水平更极端,则我们拒绝原假设
第三步、
查表确定拒绝域,对比确认是否拒绝原假设
参考:
https://blog.csdn.net/qq_22592457/article/details/92982170
-
有关平均参数u的假设检验
根据是否已知方差,分为两类检验:U检验和T检验。
如果已知方差,则使用U检验,
如果方差未知则采取T检验。-
Z检验(U检验)–大样本
- 检验一个样本平均数(X)与一个已知的总体平均数(μ0)的差异是否显著
- 检验来自两个的两组样本平均数的差异性,从而判断它们各自代表的总体的差异是否显著
-
T检验–小样本
- 评断一个总体中的小样本平均数与总体平均值之间的差异程度
- 评断两组样本平均数之间的差异程度
-
-
有关参数方差σ2的假设检验
F检验是对两个正态分布的方差齐性检验,简单来说,就是检验两个分布的方差是否相等
-
F检验
- 检验两个正态随机变量的总体方差是否相等的一种假设检验方法。
-
-
检验两个或多个变量之间是否关联
卡方检验属于非参数检验,主要是比较两个及两个以上样本率(构成比)以及两个分类变量的关联性分析。根本思想在于比较理论频数和实际频数的吻合程度或者拟合优度问题。
-
卡方检验
-
用途:检查实际结果与期望结果之间何时存在显著差异,【预测与实际的偏差是正常?还是模型错了?】
-
卡方检验"拟合优度"
检验拟合优度:
也就是说可以检验一组给定数据与指定分布的吻合程度。如:用它检验抽奖机收益的观察频数与我们所期望的吻合程度。 -
卡方检验两个变量的"独立性"
检验两个变量的独立性:
通过这个方法检查变量之间是否存在某种关系
-
-
-
常见的定律
大数定律
这里强调的是总体与样本
(1) 大数定律就是说:当随机事件发生的次数足够多时,发生的频率趋近于预期的概率
(2) 大数定律说的是当随机事件重复多次时频率的稳定性,随着试验次数的增加,事件发生的频率趋近于预期的“概率”
赌徒缪误:
1,2,4,8-----在赌钱时——输了就翻倍,一直到赢为止
有人说:如果已经连续4次出现正面,接下来的第5次还是正面的话,就接连有5次“正面”,根据概率论,连抛5次正面的几率是1/25=1/32。所以,第5次正面的机会只有1/32,而不是1/2。
以上混淆了“在硬币第1次抛出之前,预测接连抛5次均为正的概率”和“抛了4次正之后,第5次为正的概率”,
既(11111)---- 1/32,
(1111)1 ---- 1/2。
参考:http://blog.sciencenet.cn/blog-677221-1063741.html
- eg:只要样本数量够多,抛硬币是正面的概率—极限趋近1/2
中心极限定理
大量相互独立的随机变量,其求和后的平均值以正态分布(即钟形曲线)为极限。
一般所取的样本在30上
- eg:抛4次硬币,出现正面朝上的次数的分布情况(正态分布)
- 抽样分布
假设有一个总体,从中抽样,每次抽n个,每次抽出来du的n个数值会有个均值u,如zhi果一共抽了k次,那dao就有k个均值,比如设为u1,u2,u3,…uk,这k个均值的均值等于总体的均值。
基于中心极限定理,其抽样后的样本均值的分布接近于正态分布(可能不是对称的正态分布),且这K个均值的标准差是总体标准差的根号n分之一倍。
线性回归
最小二乘法
就高中那个y=ax+b
求解a,代均点得到b
梯度下降法
常见分布
关系:
Z就是正态分布
t分布是一个正态分布除以(一个X2分布除以它的自由度然后开
根号),
X2分布是一个正态分布的平方
F分布是两个卡方分布分布除以他们各自的自由度再相除
正态分布(U分布-标准的)(高斯分布)(Z分布)
常将一般的正态变量X通过[(X-μ)/σ]
转化成标准正态变量u以使原来各种形态的正态分布都转换为μ=0,σ=1的标准正态分布
作用:总体方差已知条件下,估计总体均值。
由密度函数的定积分为1,求唯一的未知数—总体均值
- 图像
-
定义
均值----决定对称轴
方差----决定形状中心极限定理形成——》正态分布
t分布
作用:总体方差未知条件下,估计总体均值
(样本标准差s代替总体标准差R,由样本平均数推断总体平均数)。
由密度函数的定积分为1,求唯一的未知数—总体均值
- 图像
-
定义
F分布
-
图像
-
定义
卡方分布
什么是卡方分布?
在n个正态分布中抽取他们k个的变量,对应k个变量的平方和所形成的一个新的分布。
为什么要引用卡方分布?
【事实与期望不符合情况下使用卡方分布进行检验,从而检查问题所在,是正常的小幅度波动还是建模导致的错误】
卡方检验的标准:如果统计量值(X^2)很小,说明观察频数和期望频数之间的差别不显著,统计量越大,差别越显著。
计算统计量公式:
观测值与预测值之差的平方除以预计值
怎么做?
1、确定要进行检验的假设(H0)及其备择假设H1.
2、求出期望E和自由度V.
3、确定用于做决策的拒绝域(右尾).
4、计算检验统计量.
5、查看检验统计量是否在拒绝域内.
6、做出决策.
参考:
https://www.cnblogs.com/think-and-do/p/6509239.html
https://www.statisticshowto.com/probability-and-statistics/chi-square/
- 图像
-
定义
什么是卡方分布?
在n个正态分布中抽取他们k个的变量,对应k个变量的平方和所形成的一个新的分布。