统计中涉及的模型指标及评估

梯度:一个点在所有方向的切线里,斜率最大的切线的斜率叫做函数的梯度

excel优点:好上手,可精修数据
sql:会建表,会读写

英文文献如何阅读:
用翻译软件翻译文章,大概浏览,抓到重点后,直接去看英文重点段落

定类数据:不可排序,不可运算的数据
定序数据:可排序,不可运算的数据
定距数据:可排序可运算数据(数值数据),但0点有意义
定比数据:可排序可运算数据(数值数据)但0点表示不存在

集中趋势度量
1.定类变量; 众数
2. 定序变量:中位数 众数
3. 定距变量:均值,众数,中位数
4. 定比变量:均值,众数,中位数

计算离散程度
分类数据:用异众比率度量
异众比率:不是众数的比率

顺序数据:四分位差度量(75%-25%)

数值型数据:方差和标准差

自由度:一组数据中可以自由取值的个数

泰勒中值定理的意义:多项式是所有回归模型的基础,而泰勒定理就是将我们不喜欢的形式(如三角函数等)变成我们喜欢的多项式形式;不断拟合函数,将不喜欢的函数变成多项式
在这里插入图片描述
在这里插入图片描述

arXiv.org(阶段研究成果的网站)

在这里插入图片描述
中位数:处理有极端值的情况

和总体相关的都是定值,而和样本相关的数值会随抽样不同而不同

调和平均数用来处理频繁的巨大波动时使用;
同一组数值中,调和平均数<=几何平均数<=算数平均数

离散趋势:计算数据的分散程度;度量集中趋势的代表性
异众比率:不是众数的组的频数占总样本的百分比

四分位差(定性):Qd=Qu-Ql;占样本一半的数据在样本的哪个范围;对顺序数据离散程度的测量

无偏估计:指的是无数次抽样后再对这些抽样的均值进行求平均

样本方差:相比总体方差,样本方差需要减掉一个自由度

Z=(X-u)/S: 每一个样本值到均值的差值是标准差的多少倍

切比雪夫不等式:至少89%的可能性该数据存在在三倍标准差内
切比雪夫不等式:

  1. 至少有75%数据落在平均数加减2个标准差范围内
  2. 至少有89%数据落在平均数加减3个标准差范围内
  3. 至少有94%数据落在平均数加减4个标准差范围内
    标准化是一个很好的帮助删除异常值的方法
    ex: 通过将一组数据进行标准化,之后观察标准化后的列超过正负3的标准化值我们默认为是异常值,需要进行处理

离散系数:对比两件事物的标准差
在这里插入图片描述

现在绝大部分事物属于正态分布

卡方分布构建:X服从正态分布,之后先进行标准化得到标准正态分布,在将标准化后的分布全部进行平方,最后新得到的这一列就服从自由度为1的卡方分布;多个标准正态分布的平方和就是卡方分布;目的是研究和样本方差有关的分布

卡方分布作用:研究所有和样本方差有关的东西

卡方分布图像随自由度增大而收敛到正态分布
在这里插入图片描述
卡方分布性质和特点
在这里插入图片描述

t分布专门用来研究小样本的分布情况;其实质就是标准正态分布做一些伸缩;口诀:标准正态分布除以均方的根就是t分布
随着自由度的增大,t分布会严格收敛到正态分布

F分布:两个样本方差做除法再乘以一个常数;对比两个方差;F分布有两个自由度,且F分布也会随着自由度的增大会收敛到正态分布
在这里插入图片描述
t分布:在假设检验里研究单个总体的均值
卡方分布:在假设检验里研究单个总体的方差
F分布:在假设检验里研究比较总体的两个方差是否相等;而在回归里研究多个beta的系数是否都等于0,或者说整个模型不显著

估计量评价标准:
无偏性:假设样本可以抽取无数次,那么样本的均值等于总体的均值
有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效(标准差越小越有效)
一致性:随样本量增大,估计量值越来越接近总体参数
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

各集中测度适用的数据类型(**非常重要)
在这里插入图片描述

**中心极限定理:样本均值抽样分布会随着样本数的增加收敛到正态分布;前提是方差存在
在这里插入图片描述

大数定律:样本均值会随着样本数的增加而收敛到总体均值;前提是均值存在

估计量:用于估计总体参数的随机变量或函数

  1. 无偏性:估计量抽样分布数学期望等于被估计的总体参数
  2. 有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效
  3. 一致性:随着样本量的增大,估计量的值越来越接近被估计的总体参数(大数定律自动满足)

五种参数估计方法:
矩估计:均值,方差
***最大似然估计:使用范围最广;缺点是只考虑一轮抽样的联合发生率是概率最高情况
贝叶斯估计:如果想估计一个事物,但是无法直接观测到,却能观测到一个与之有联系的事物,那么就可以通过那个事物反推回我们想估计的事物
最小二乘估计
EM

三种相关系数
皮尔逊相关系数:衡量两个连续变量的线性相关
肯德尔相关系数:衡量一个连续变量一个分类变量
斯皮尔曼相关系数:不常用,可以衡量连续变量和定序变量,但会损失信息

***最大似然估计:样本值的联合发生率;在离散情况下,似然函数就是概率的连乘;如果是连续性情况下,似然函数就是概率密度的连乘

**线性回归的步骤:**
  1. 明确需求(Y)
  2. 数据清洗(缺失值处理,异常值处理,分类变量)
  3. 相关分析(相关系数,残余变量散点图)
  4. 分割测试集训练集
  5. 回归(F检验,t检验,R^2)
  6. 模型调优(正态性、同方差、不可出现内生性,共线性,序列相关性’)
  7. 模型精修(交互项,高次项,时间趋势,季节趋势)
  8. 逐步回归,交叉验证
  9. 模型测试

如果残差出现异方差或者非正态性,最有效的办法是对因变量y取自然对数;另一种是加权最小二乘法
商业上一般是忽略内生性问题
共线性用VIF值测试
共线性处理方法:

  1. 直接删变量
  2. 如果不能删除时,有以下方法
    1)主成分分析:但会改变变量属性
    2)岭回归或Lasso回归:它会造成模型预测有偏,所以用了岭回归或Lasso回归后,需要重新测试模型预测能力,如果效果不好,还是放弃使用该方法
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值