统计学学习笔记

最新推荐文章于 2024-07-05 16:13:14 发布

刘大硕士

最新推荐文章于 2024-07-05 16:13:14 发布

阅读量1.3k

点赞数

分类专栏：读书笔记文章标签：统计学读书笔记

本文链接：https://blog.csdn.net/liuhui516/article/details/48847973

版权

读书笔记专栏收录该内容

0 篇文章 0 订阅

订阅专栏

五、概率
决策分析：风险和利益间达到平衡的过程。

三种得到概率的方法：等可能时间、相对频率和个人评价。

优势：优势是一个整数，他是事件不出现的次数与时间出现的次数的比率。优势5比1表示6次实验中，事件不出现的次数是5，不出现的次数是1.

二项分布与poisson分布的区别：
二项分布，样本数量多，可能性只有两种
POISSON分布，样本数量比较少，但是可能性比较多。

六、点估计
样本统计量：样本均值样本百分比样本标准差。
样本是随机抽取的子集。

点估计是一个用来估计总体参数的数。是一个确定的数，而不是一个区间。
一个好的估计方法可以这样定义：如果在无数个样本上应用该估计方法，得到的估计的均值等于总体参数的真值。
点估计标准：
1.如果大量样本的样本统计量的均值等于总体参数的真值，则这种样本统计量是该参数的无偏估计。2.许多重复抽样所得的估计量不应该离真值太远。

区间估计又称置信区间，是用来估计参数的取值范围的。

置信水平：如果我们手机了许多不同的样本，并对每个样本都构造了一个置信区间。这些置信区间有足够的宽度使他们中的95%包含了总体百分点的真值，而5%没有包含，则这95%这个值就称为置信水平。

七、做出结论，假设检验
估计的主要任务是找参数值等于几；假设检验的兴趣主要是看参数的值是否等于某个特别感兴趣的值。

零假设:指进行统计检验时预先建立的假设。
，备择假设

第一类错误（α错误）:在假设检验中拒绝了本来是正确的零假设。
第二类错误（β错误）：在假设检验中没有拒绝本来是错误的零假设。

p-值：是当零假设正确时，得到所观测的数据或更极端的数据的概率。
当p-值足够小的时候，小于0.05，我们就用足够的理由拒绝零假设。
4
显著水平：一个检验的显著水平α是抽样所得的数据拒绝了本来是正确的零假设的概率。

八、变量间的关系
统计关系：我们从数据中发现了一些规律，就称变量间存在统计关系。
伪关系：如果观测到的两个变量间的关系可以通过引入第三个变量来解释，这种关系就成为伪关系。
自变量，因变量（解释变量，响应变量）

自变量因变量类型：
分类型变量：他的值是非数量的范畴；
顺序型变量：他的值是有序的；
数量型变量：他的值是可以做数学计算的有意义的数制。

九、两个分类变量的分析
列联表：列联表是一个描述两个分类变量分布的频率表。
水平安排自变量和垂直安排因变量是构造列联表的常用方法。
是否拒绝零假设依赖于两个依据：（1）样本的关系强度（2）样本中观测的个数（n).
自由度：=（行数-1）*（列数-1）

十、两个数值型变量的回归分析和相关分析

回归分析描述的是一个或多个自变量的变化是如何影响因变量的一种方法。
相关分析描述的是两个数值变量间的强度。
相关系数：衡量两个变量间的关系 -1到1
最小平方：从意义上说，这条直线就是距所有的点最in的那条直线。
把自变量的值带入回归直线的方程就得到了因变量的预测值。
残差变量包含了除自变量外的其他所有变量对因变量的效应。
总平方和度量了自变量和残差变量在因变量上的效应，它等于
（观测-平均）平方之和。

当我们遇到相关系数时，就应当立即计算他的平方，这个平方告诉我们自变量对于因变量的效应占总效应的比例。
1-r平方是残差变量占总效应的比例。

虚拟变量是一个只有两个数值的变量，他经常用来表示一个用两类的分类变量。分类变量中，第一类的所有观测都取虚拟变量的一个值，第二类的所有观测都取虚拟变量的另一个值。

相关分析和回归分析是分析两个数值变量关系的两个相互补充的方法。相关分析描述了两个变量的相关成都。回归分析则描述了因变量是怎么样受一个或多个变量影响的。简单回归分析是指的只有一个自变量的回归分析。

十一、一个分类变量和一个数量变量的方差分析

方差分析：用来对比因变量在不同组的平均值的统计方法。
方差分析与回归分析最主要的区别在于：方差分析中的沿自变量是分类变量，而回归分析中沿水平轴的自变量是数量变量。
自变量平方和：（组均值-总均值）平方之和
残差平方和：（观测-组的均值）平方之和

配对分析：如果在同一个实验单元上进行重复测量，就会得到在每个单元中有两个观测值的数据。而处理这类数据时所用的分析方法就叫做配对分析。

十二、两个顺序变量的秩方法
系数γ度量了两个取值为词的数序变量的相关程度。
秩顺序相关系数是用来度量取值为数的两个有数量值的顺序变量的相关程度的。

和通常一样，我们不能认为统计关系就是因果关系，但是在这里看来低相关性是处于偶然，所以因果关系就更无从谈起。

十三、
多元统计分析考察两个或多个自变量对一个因变量的相关的影响。
控制第三个变量就是在研究两个变量之间的关系时，将数据按照被控制的变量先分成若干子部分，然后在被控制变量的各子部分中研究那两个变量之间的关系。所谓按照第三个变量划分子部分意味着让第三个变量保持常熟。

分类型变量数值型变量。

多元回归是一种勇于研究多个数值自变量与一个数值型因变量之间关系的统计方法。

偏回归系数是当我们控制其他所有自变量并使他们保持常值时，某一个变量的系数。它是当我们按分析中所有其他自变量的值分组后各个组内回归系数的平均值。

共线性存在于两个或多个相互关联的自变量之间。
每当我们引入一个与分析中变量有相互关系的变量时，回归系数就发生了改变。没有哪一个变量会保持唯一的系数值；系数会随着我们所用的其他变量而该百年。这种现象称为自变量之间的共线性。

偏相关系数表明了当我们控制其他变量时两个变量之间关系的强度。

多重相关系数R度量因变量的观测值与由自变量由回归方程算得的预测值之间关系的强度。R的值域从0到1。

（多重相关变量系数的平方R方等于0.89，它意味着三个自变量共同解释了热量值差异的89%，残差变量解释了剩下的11%）

双因子方差分析是有关两个分类型自变量对一个数值型因变量效应的分析。

交互效应发生时，两个变量的联合作用对因变量产生了他们各自效应之和以外的附加效应。

刘大硕士

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
统计学学习笔记

五、概率决策分析：风险和利益间达到平衡的过程。三种得到概率的方法：等可能时间、相对频率和个人评价。优势：优势是一个整数，他是事件不出现的次数与时间出现的次数的比率。优势5比1表示6次实验中，事件不出现的次数是5，不出现的次数是1. 二项分布与poisson分布的区别：二项分布，样本数量多，可能性只有两种 POISSON分布，样本数量比较少，但是可能性比较多。六、点估计样本统计量：
复制链接

扫一扫

专栏目录