高级统计方法

目录

1、统计学习基础

1.1 使用目的

1.1.1 预测(prediction)*

1.1.2 推断(inference)

1.1.3 混合

1.2 估计方法

1.2.1 参数方法

1.2.2 非参数方法

1.3 预测精度(Flexibility)和可解释性(Interpretability)*

1.4 评价模型精度

1.4.1 拟合效果检验 (均方误差MSE)*

1.4.2 偏差-方差权衡*

1.4.3 分类模型

1、贝叶斯分类器

2、K最近邻方法(KNN)

2、线性回归

2.1 简单线性回归

2.1.1 残差平方和(residual sum of squares,RSS)*

2.1.2 评估系数估计的准确性 **

2.1.3 评价模型准确性***

1、残差标准误(RSE)**

2、R方统计量*

2.1.4 预测区间与置信区间*

2.2 多元线性回归

2.3 重要问题*

2.4 回归模型的其他注意事项*

2.4.1 定性预测变量*

2.4.2 去除可加性假设

2.5 潜在的问题

3、分类

3.1 概述

3.2 逻辑斯蒂回归***

3.2.1 模型

3.2.2 估计系数

3.3 线性判别分析

3.3.1 贝叶斯估计

3.3.2 p=1的线性判别分析(LDA)

3.3.3 混淆矩阵*

3.4 分类比较*

4、重抽样方法

4.1 交叉验证法

4.1.1 验证集方法

4.1.2 K折交叉验证*

4.2 自助法(bootstrap)*

5、线性模型选择与正则比

5.1 概述**

5.2 子集选择(subset selection)

5.2.1 最优子集选择

R语言汇总

R语言基础


1、统计学习基础

1.1 使用目的

1.1.1 预测(prediction)*

通过输入集X来预测输出Y的结果

实际: Y = f(x)+\varepsilon

预测:\widehat{Y} =\widehat{f}(x)    (因为是预测所以要戴帽)

1.1.2 推断(inference)

输入集X的变化对Y产生什么影响,推断X与Y的关系

1.1.3 混合

1.2 估计方法

1.2.1 参数方法

先假设(线性拟合、高光滑度模型)

再拟合(线性无法拟合f的曲率,高光滑度模型存在过拟合)

1.2.2 非参数方法

不假设、直接拟合

更大范围上适应f的形状,但往往需要大量的观测点

如:薄板样条

1.3 预测精度(Flexibility)和可解释性(Interpretability)*

预测精度=光滑度=柔性水平=自由度

预测精度越高,模型可解释性越低

1.4 评价模型精度

1.4.1 拟合效果检验 (均方误差MSE)*

均方误差(mean squared error , MSE) :预测的响应值与真实响应值之间的接近程度

y_{i}:实际;   \hat{f}:预测

多数情况下,光滑度增加,训练均方误差单调递减(蓝色),测试均方误差呈U形分布(红色)

高光滑度意味着数据过拟合

1.4.2 偏差-方差权衡*

偏差(Bias):模型本身有问题(如:训练数据为二次,而模型选择了线性)

方差(Var):输入数据的一个细微扰动就会得到不同的输出结果(\widehat{f}

MSE = BIAS + VAR

模型光滑度增加,方差增大,偏差减小期望找到一个使方差、偏差都较小的模型

(光滑度越大,拟合度越高->偏差越小;细微扰动越大->方差增大)

1.4.3 分类模型

1、贝叶斯分类器

观测向量x0在条件Y = j时的概率

贝叶斯分类器将产生最低的测试错误率,同不可约误差

2、K最近邻方法(KNN)

选择k个和x0最相邻的点来估计x0的值

K越大,柔性水平越低(大的K值意味着决策边界X0的取值受更多点影响)

K越小,柔性水平越高,分类边界相当不规则

2、线性回归

2.1 简单线性回归

2.1.1 残差平方和(residual sum of squares,RSS)*

用于表示预测函数和实际情况的接近程度

2.1.2 评估系数估计的准确性 **

标准误差 SE (对均值\beta _{0}的估计):

残差标准误 RSE(对数据估计值\beta _{1}的估计):

RSE=\sqrt{RSS/(n-2)}

β1的95%置信区间:

假设检验

H0零假设:X与Y没有关系

H1备择假设:X与Y有关系

一个很小的p值表示,在预测变量和响应变量之间的真实关系未知的情况下,不太可能完全由于偶然而观察到预测变量和响应变量之间强相关

P值足够小(<0.05)时,接受H1,拒绝H0,认为X与Y之间有关系

2.1.3 评价模型准确性***

1、残差标准误(RSE)**

RSE越接近0越好

2、R方统计量*

R方统计量是模型回归后的可解释比例

2.1.4 预测区间与置信区间*

预测区间:预测某个特定(particular)房子的价格的不确定性,预测区间有95%的可能性包含某个房子的价格;衡量的是\hat{y}与y的接近程度;预测区间既包含可约误差,也包含不可约误差;

置信区间:以量化大量房屋在某个x取值下的平均价格,表明该区间有 95%的概率包含某个x取值下的平均价格(即:𝑓(𝑥) );衡量的是\hat{y}与𝑓(𝑥) 的接近程度;只包含可约误差

预测区间总比置信区间宽,因为预测区间包含了不可约误差;

2.2 多元线性回归

2.3 重要问题*

书52页

2.4 回归模型的其他注意事项*

2.4.1 定性预测变量*

哑变量:通过设置哑变量来解释定性预测变量,哑变量个数=定性变量个数-1

(男性、女性:1个哑变量,男1女0)

(黄人、白人、黑人:2个哑变量,黄种人1非黄种人0,白种人1非白种人0)

2.4.2 去除可加性假设

交互作用(协同效应)

ex1:产品销量与TV,radio,newspaper广告投入量有关,在只有线性关系(没有交互项)时,无论radio支出多少,TV对sale的影响不变,这明显不对,其实TV和radio之间存在交互作用,TV是radio的代言人,考虑TV和radio的交互项

ex2:鲨鱼攻击人类次数和海边冰淇淋销量呈正相关。冰淇淋销量其实与温度有关,温度升高,海边游客多,从而鲨鱼攻击次数多,鲨鱼是温度的代言人,考虑鲨鱼和温度的交互项

ex3:学生的信用卡信用低。信用和收入有关,收入低,所以信用低,而学生恰好是低收入人群。学生是收入低的代言人,考虑学生和收入的交互项

实验分层原则:如果模型中含有交互项,那么即使主效应的系数的p值不显著,也应包含在模型中。换句话说,如果 X1和X2之间的交互作用是重要的,那么即使 X1和X2的系数估计的P值较大,这两个变量也应该被包含在模型中(主效应要引入,不能删除

2.5 潜在的问题

  • 数据的非线性(nonlinearity of response-predictor relationship):使用残差图识别数据非线性与否,残差图有明显规律(U型)说明数据具有非线性;
  • 误差项自相关(correlation of error term)
  • 误差项方差非恒定(non-constant variance of error term):残差图为漏斗形,说明模型方差非恒定;
  • 离群点(outlier):异常的y值。有时无法判断哪个点是离群点,使用学生化残差进行评价(绝对值>3的点为离群点);
  • 高杠杆点(high-leverage point):异常的x值
  • 共线性(collinearity)

3、分类

3.1 概述

1、哑变量失效

对于二元变量(违规、不违规),线性回归可以使用,但对于多元定性响应变量(DNA的序列A/B/C/D…的致病情况)线性回归不可用,哑变量方法不可随意推广

2、逻辑斯蒂回归

线性回归方法可能产生<0或>1的概率(信用卡额度很小很小时,使用线性模型可能得到<0的违约概率),使用逻辑斯蒂回归解决这一问题。

3.2 逻辑斯蒂回归***

3.2.1 模型

模型得到的是一个在0~1之间的概率值。

3.2.2 估计系数

使用极大似然法估计估计系数(极大似然法使得数据的结果更接近于1(违约)或更接近于0(不违约))

在回归(拟合)问题中,使用的方法是:最小二乘估计

3.3 线性判别分析

3.3.1 贝叶斯估计

逻辑斯蒂回归:给定X,建立Y的条件分布模型

贝叶斯估计:给定Y,反过来建立X的分布模型

3.3.2 p=1的线性判别分析(LDA)

只有一个预测变量,假设f(x)是高斯的(正态的),且所有分类的方差相同(只有均值不同),贝叶斯分类器将他们分为两个类(K=2),分类边界为(μ1+μ2)/2

K = k 表示分k个类

3.3.3 混淆矩阵*

假阳性率 = 真实为阴,预测为阳的概率

假阴性率 = 真实为阳,预测为阴的概率

ROC曲线:

纵坐标表示真阳率(准确率),横坐标表示假阳率(错误率),曲线越接近左上角越好,曲线下的面积越大越好。

3.3.4 二次判别分析(QDA)

3.4 分类比较*

LDA:观测服从协方差相同的高斯分布(K>2也可用)LDA在𝑛较小或类差别明显

逻辑斯蒂回归:可以解决很多分类问题(特别是K=2)

KNN:非参数方法,决策边界高度非线性时可用

QDA:折中方法,对决策边界有一些假设,比线性的适用范围广,比KNN光滑度低

4、重抽样方法

没有模型能完美解决测试集中方差、偏差、光滑度问题,通过从拟合过程中的训练数据集拿出子集来验证测试误差

4.1 交叉验证法

4.1.1 验证集方法

将样本集随机分为训练集和验证集

训练集:模型在训练集上拟合

验证集:拟合出的模型在验证集上做评估

定量变量评估(回归):MSE

定性变量评估(分类):误分类率

4.1.2 K折交叉验证*

概念

  • 将模型随机的分成大小相等的K组,留出第k组做为验证集,剩余的K-1组作为训练集,最后在第k组上测试模型的MSE;
  • 再对每一个k=1,2,…,K不断重复上述操作,最后对结果进行结合。

CV:加权平均数;N:样本总数;n_{k}:N/K,验证样本数;MSEk:第k组的均方误差

【注】

  • 留一法(LOOCV)= N折交叉验证,将N个样本分为了N组,每组只有一个数据,一个样本就是验证集;(留一法具有小偏差,大方差)
  • K折交叉验证适合做有监督训练,不适合做无监督训练;
  • K一般取5或10。

4.2 自助法(bootstrap)*

概念:有放回的对原始数据集进行抽样来作为训练集,抽样个数(注意不是抽样次数)和原始数据集大小相同(原始n个,抽n个)

自助法的验证样本和训练样本有大量重叠(约2/3),因此会严重低估真实的预测误差

5、线性模型选择与正则比

选择其他线性模型来替代最小二乘模型

【预测准确率】

  • 若响应变量和预测变量真实关系近似线性,则最小二乘的偏差较低;
  • 若观测个数n远大于变量个数p,则最小二乘的方差也较低;(1000个学生的数学、语文成绩)
  • 若不满足n远大于p,则使用最小二乘可能导致过拟合;(10个学生的数学、语文成绩)
  • 若p>n,则最小二乘得到的系数估计结果不唯一:此时方差无穷大,无法使用最小二乘法。

改进措施:通过限制缩减待估计系数,在牺牲偏差显著减小估计量方差

【模型解释力】

  • 在多元回归模型中,常常存在一个或多个预测变量与响应变量不存在线性关系的情况,包括一些增加了模型的复杂性、却与模型无关的变量。
  • 通过去除不相关的特征,将无关变量的系数设置为0,并移除这些无关变量(去不相关)可得到一个更容易解释的模型, 但最小二乘法很难将系数置为0。  

改进措施:通过自动进行特征选择变量选择,在多元回归模型中实现对无关变量的筛选。

5.1 概述***

5.2 子集选择(subset selection)

5.2.1 最优子集选择

p:所有预测变量,k:模型含有k个变量

对p个预测变量,会产生2^{p}个模型,效率很第

5.2.2 向前逐步选择

5.2.3 向后逐步选择

5.2.4 选择最优模型

对包含不同预测变量个数的不同模型,基于训练误差的RSS和R方不可用 ,此时需要基于测试误差进行模型选择:

  • 根据过拟合导致的偏差对训练误差进行调整,间接地估计测试误差。
    • Cp:测试均方误差的无偏估计(最小二乘法),越小越好
    • AIC:赤池信息量准则(极大似然估计),与Cp成比例,越小越好
    • BIC:贝叶斯信息准则,越小越好
    • 调整R方:带有惩罚,越大越好
  • 采用验证集方法或交叉验证方法,直接估计测试误差。
    • 验证与交叉验证

5.3 压缩估计

5.3.1 岭回归

回归系数估计值:

随着λ的增加,岭回归拟合结果的光滑度降低,虽然方差降低,但偏差增加,训练集RSS逐渐增大

5.3.2 lasso

5.3.3 岭回归与lasso的对比**

5.4 降维方法

5.4.1 主成分分析(PCA)

用投影的方法将高维空间压缩到低维

选择一组使方差尽可能大的K为正交基,0均值化

5.4.2 主成分回归(PCR)

先做PCA,再做LR

5.4.3 偏最小二乘(PLSR)

一种有指导的主成分回归。利用响应变量y进行成分筛选

6、非线性模型

6.1 基本概念

6.2 光滑样条

R语言汇总

lm()函数:拟合一个简单线性回归模型

names ()函数:找出 lm.fit中存储的其他信息

confint()函数:得到系数估计值的置信区间

predict ()函数:可以计算置信区间和预测区间

        predict(lm.fit, data.frame(horsepower=c(98)), interval="confidence")

        #马力为98时的95%置信区间

        predict(lm.fit, data.frame(horsepower=c(98)), interval="prediction")

        #马力为98时的95%预测区间

plot()函数:绘制散点图

abline()函数:绘制任意直线,abline(lm.fit)绘制最小二乘线

par(mfrow=c(2,2)):把绘图区域划分成2x2的网格面板

glm(y~x,data,family = binomial)函数:逻辑斯蒂回归

table():混淆矩阵

lda():线性判别分析

R语言基础

R语言部分主要参考CSDN博主「菲&quot;Q」的原创文章

原文链接:https://blog.csdn.net/weixin_43761124/article/details/103666458

 

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值