来源:
知乎本文约为
2400字,建议阅读
6
分钟
本文总结统计学中经常犯的错误,知道这些常识,可以在与别人”嘴炮“时更具专业性。
1. 变量之间关系可以分为两类:
函数关系:反映了事务之间某种确定性关系。
相关关系:两个变量之间存在某种依存关系,但二者并不是一一对应的;反映了事务间不完全确定关系;
2. 为什么要对相关系数进行显著性检验?
8. 中心极限定律与大数定理:
大数定理---正态分布的“左磅”,随着样本数的增加,样本的平均值可以估计总体平均值;
中心极限定理---正态分布的“右臂”具有稳定性,大数定理说明大量重复实验的平均结果具有稳定解决了变量均值的收敛性问题中心极限定理说明随机变量之和逐渐服从某一分布,解决了分布收敛性问题。
9. 方差
方差能最大程度的反映原始数据信息;
反映了一组数据相对于平均数的波动程度,相比于
,其平方项更放大了波动,且差的平方在数学公式推导上有大用。
10. 使用最小二乘法条件:
1.H0与H1是完备事件组,相互对立,有且只有一个成立。 2.在确立假设时,先确定备设H1,然后再确定H0,且保证“=”总在H0上。 3.原H0一般是需要反驳的,而H1是需要支持的。 4.假设检验只提供原假设不利证据。 即使“假设”设置严密,检验方法“精确”;假设检验始终是建立在一定概率基础上的,所以我们常会犯两类错误; 第一类:原H0是真,却拒绝原假设;犯
类错误。
第二类:原H0是假,却不拒绝原假设;犯
类错误。
通常只能犯两种错误中的一种,且
增加,
减少。
通常,
类错误是可控的,先设法降低第一类错误概率
。
13. 什么是双尾检验,单尾检验?
1. 当H0采用等号,而H1采用不等号,双尾检验。
2.当H0是有方向性的,单尾检验。
14. P值
17. 直方图:对数据进行整体描述,突出细节
箱线图:对数据进行概要描述,或对不同样本进行比较。箱线图可以让我们迅速了解数据的汇集情况(这个样本,紧密的集合在一起;哇,这个样本不那么密集;这个样本,大部分向左偏,哇,这个样本大部分向右偏。)
但是请注意:一个直方图比1000个p值更重要,拿到数据先绘制散点图、直方图、箱线图看看,再决定用什么描述!
18. 霜线图
对于分位数的理解:霜线图看数据分布特征统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的得分就是四分位数。所以,四分位数有三个!四指四等份!
一元回归不存在多重共线性的问题;而多元线性回归要摒弃多重共线性的影响;所以要先对所有的变量进行相关系数分析,初步判定是否满足前提---多重共线性。
![b2a798e0394c86eaeb064e953a2b25f8.png](https://img-blog.csdnimg.cn/img_convert/b2a798e0394c86eaeb064e953a2b25f8.png)
- 实际上完全没有关系的变量,在利用样本数据进行计算时也可能得到一个较大的相关系数值(尤其是时间序列数值)。
- 当样本数较少,相关系数就很大。当样本量从100减少到40后,相关系数大概率会上升,但上升到多少,这个就不能保证了;取决于你的剔除数据原则,还有这组数据真的可能不存在相关性;
- 显著性水平:通过小概率准则来理解,在假设检验时先确定一个小概率标准----显著性水平;用
表示;凡出现概率小于显著性水平的事件称小概率事件;
- 通过两类错误理解:
为拒绝域面积
![33c86df8c85248b6db2cdb3df5cabe88.png](https://img-blog.csdnimg.cn/img_convert/33c86df8c85248b6db2cdb3df5cabe88.png)
![7eea726d4ead7daedf3e48bfc0713026.png](https://img-blog.csdnimg.cn/img_convert/7eea726d4ead7daedf3e48bfc0713026.png)
- 自变量之间不能存在完全共线性;
- 总体方程误差项服从均值为0的正态分布(大数定理);
- 误差项的方差不受自变量影响且为固定值;(同方差性)
- 最小二乘法是基于几何意义上距离最小;
- 最大似然估计是基于概率意义上出现的概率最大;
- 最小二乘法:对数据分布无要求;
- 最大似然估计:需要知道概率密度函数。
1.H0与H1是完备事件组,相互对立,有且只有一个成立。 2.在确立假设时,先确定备设H1,然后再确定H0,且保证“=”总在H0上。 3.原H0一般是需要反驳的,而H1是需要支持的。 4.假设检验只提供原假设不利证据。 即使“假设”设置严密,检验方法“精确”;假设检验始终是建立在一定概率基础上的,所以我们常会犯两类错误; 第一类:原H0是真,却拒绝原假设;犯
- 当原假设为真时,比所得到的样本观察,结果更极端的结果会出现的概率。
- 如果P值很小,我们拒绝原假设的理由越充分。
- P的意义不表示两组差别大小,p反映两组差别有无统计学意义。
- 显著性检验只是统计结论,判断差别还需要专业知识;
- 当样本容量n够大,样本观察值符合正态分布,可采用U检验;
- 当样本容量n较小,若观测值符合正态分布,可采用T型检验。
- 组间变异:由于不同实验处理而造成的各组之间的变异。
- 组内变异:组内各被适变量的差异范围所呈现的变异。
![fe292eddbd512783f39431bdba24e482.png](https://img-blog.csdnimg.cn/img_convert/fe292eddbd512783f39431bdba24e482.png)
- 第一四分位数:下四分位数;等于该样本中所有数值由小到大排列后第25%的数字(所以下四分位数可以不是样本中的数值,它是一个统计指标(就像平均数一样,不一定是原数据中的一点)。
- 第二四分位数:中位数;
- 第三四分位数:上四分位数。
![6a502433bc83ff37a74dc2290f965f35.png](https://img-blog.csdnimg.cn/img_convert/6a502433bc83ff37a74dc2290f965f35.png)
来源:知乎;本次编辑转自:数据派THU 公众号;