统计中涉及的模型指标及评估

最新推荐文章于 2022-11-06 13:36:15 发布

tomwang0322

最新推荐文章于 2022-11-06 13:36:15 发布

阅读量1.3k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41636030/article/details/85336141

版权

梯度：一个点在所有方向的切线里，斜率最大的切线的斜率叫做函数的梯度

excel优点：好上手，可精修数据
sql：会建表，会读写

英文文献如何阅读：
用翻译软件翻译文章，大概浏览，抓到重点后，直接去看英文重点段落

定类数据：不可排序，不可运算的数据
定序数据：可排序，不可运算的数据
定距数据：可排序可运算数据（数值数据），但0点有意义
定比数据：可排序可运算数据（数值数据）但0点表示不存在

集中趋势度量
1.定类变量; 众数
2. 定序变量：中位数众数
3. 定距变量：均值，众数，中位数
4. 定比变量：均值，众数，中位数

计算离散程度
分类数据：用异众比率度量
异众比率：不是众数的比率

顺序数据：四分位差度量（75%-25%）

数值型数据：方差和标准差

自由度：一组数据中可以自由取值的个数

泰勒中值定理的意义：多项式是所有回归模型的基础，而泰勒定理就是将我们不喜欢的形式（如三角函数等）变成我们喜欢的多项式形式；不断拟合函数，将不喜欢的函数变成多项式
在这里插入图片描述

arXiv.org(阶段研究成果的网站）

在这里插入图片描述
中位数：处理有极端值的情况

和总体相关的都是定值，而和样本相关的数值会随抽样不同而不同

调和平均数用来处理频繁的巨大波动时使用；
同一组数值中，调和平均数<=几何平均数<=算数平均数

离散趋势：计算数据的分散程度；度量集中趋势的代表性
异众比率：不是众数的组的频数占总样本的百分比

四分位差（定性）：Qd=Qu-Ql；占样本一半的数据在样本的哪个范围；对顺序数据离散程度的测量

无偏估计：指的是无数次抽样后再对这些抽样的均值进行求平均

样本方差：相比总体方差，样本方差需要减掉一个自由度

Z=(X-u)/S: 每一个样本值到均值的差值是标准差的多少倍

切比雪夫不等式：至少89%的可能性该数据存在在三倍标准差内
切比雪夫不等式：

至少有75%数据落在平均数加减2个标准差范围内
至少有89%数据落在平均数加减3个标准差范围内
至少有94%数据落在平均数加减4个标准差范围内
标准化是一个很好的帮助删除异常值的方法
ex: 通过将一组数据进行标准化，之后观察标准化后的列超过正负3的标准化值我们默认为是异常值，需要进行处理

离散系数：对比两件事物的标准差
在这里插入图片描述

现在绝大部分事物属于正态分布

卡方分布构建：X服从正态分布，之后先进行标准化得到标准正态分布，在将标准化后的分布全部进行平方，最后新得到的这一列就服从自由度为1的卡方分布；多个标准正态分布的平方和就是卡方分布；目的是研究和样本方差有关的分布

卡方分布作用：研究所有和样本方差有关的东西

卡方分布图像随自由度增大而收敛到正态分布
在这里插入图片描述
卡方分布性质和特点

t分布专门用来研究小样本的分布情况；其实质就是标准正态分布做一些伸缩；口诀：标准正态分布除以均方的根就是t分布
随着自由度的增大，t分布会严格收敛到正态分布

F分布：两个样本方差做除法再乘以一个常数；对比两个方差；F分布有两个自由度，且F分布也会随着自由度的增大会收敛到正态分布
在这里插入图片描述
t分布：在假设检验里研究单个总体的均值
卡方分布：在假设检验里研究单个总体的方差
F分布：在假设检验里研究比较总体的两个方差是否相等；而在回归里研究多个beta的系数是否都等于0，或者说整个模型不显著

估计量评价标准：
无偏性：假设样本可以抽取无数次，那么样本的均值等于总体的均值
有效性：对同一总体参数的两个无偏点估计量，有更小标准差的估计量更有效（标准差越小越有效）
一致性：随样本量增大，估计量值越来越接近总体参数
在这里插入图片描述

各集中测度适用的数据类型（**非常重要）
在这里插入图片描述

**中心极限定理：样本均值抽样分布会随着样本数的增加收敛到正态分布；前提是方差存在
在这里插入图片描述

大数定律：样本均值会随着样本数的增加而收敛到总体均值；前提是均值存在

估计量：用于估计总体参数的随机变量或函数

无偏性：估计量抽样分布数学期望等于被估计的总体参数
有效性：对同一总体参数的两个无偏点估计量，有更小标准差的估计量更有效
一致性：随着样本量的增大，估计量的值越来越接近被估计的总体参数（大数定律自动满足）

五种参数估计方法：
矩估计：均值，方差
***最大似然估计：使用范围最广；缺点是只考虑一轮抽样的联合发生率是概率最高情况
贝叶斯估计：如果想估计一个事物，但是无法直接观测到，却能观测到一个与之有联系的事物，那么就可以通过那个事物反推回我们想估计的事物
最小二乘估计
EM

三种相关系数
皮尔逊相关系数：衡量两个连续变量的线性相关
肯德尔相关系数：衡量一个连续变量一个分类变量
斯皮尔曼相关系数：不常用，可以衡量连续变量和定序变量，但会损失信息

***最大似然估计：样本值的联合发生率；在离散情况下，似然函数就是概率的连乘；如果是连续性情况下，似然函数就是概率密度的连乘

**线性回归的步骤：**

明确需求（Y）
数据清洗（缺失值处理，异常值处理，分类变量）
相关分析（相关系数，残余变量散点图）
分割测试集训练集
回归（F检验，t检验，R^2）
模型调优（正态性、同方差、不可出现内生性，共线性，序列相关性’）
模型精修（交互项，高次项，时间趋势，季节趋势）
逐步回归，交叉验证
模型测试

如果残差出现异方差或者非正态性，最有效的办法是对因变量y取自然对数；另一种是加权最小二乘法
商业上一般是忽略内生性问题
共线性用VIF值测试
共线性处理方法：

直接删变量
如果不能删除时，有以下方法
1）主成分分析：但会改变变量属性
2）岭回归或Lasso回归：它会造成模型预测有偏，所以用了岭回归或Lasso回归后，需要重新测试模型预测能力，如果效果不好，还是放弃使用该方法

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。