【视频】机器学习交叉验证CV原理及R语言主成分PCA回归分析犯罪率|数据共享

拓端研究室

已于 2023-02-05 13:23:08 修改

阅读量932

点赞数

分类专栏： R语言机器学习文章标签：人工智能 python

于 2022-09-09 15:00:02 首次发布

本文链接：https://blog.csdn.net/qq_19600291/article/details/126766182

版权

R语言同时被 2 个专栏收录

497 篇文章

订阅专栏

机器学习

233 篇文章

订阅专栏

最近我们被客户要求撰写关于交叉验证的研究报告，包括一些图形和统计输出。

交叉验证是避免过度拟合和很好地理解预测模型性能的最有效技术之一。

什么是交叉验证？

交叉验证是机器学习中最重要的概念之一。这是因为它允许我们创建能够_泛化的模型——_也就是说，即使在不属于训练集的数据上也能够创建一致的预测。

一个可以泛化的模型是一个有用的、强大的模型。

交叉验证意味着将我们的训练数据分成不同的部分，并在这些部分的子集上测试我们的模型。测试集继续用于最终评估，而模型性能则在交叉验证生成的部分上进行评估。这种方法称为K-Fold 交叉验证，稍后我们将更详细地了解它。

下图总结了目前为止的这句话。

K 折交叉验证

交叉验证可以通过不同的方式完成，每种方法都适用于不同的场景。在本文中，我们将介绍_K-Fold 交叉验证_，这是迄今为止最流行的交叉验证技术。其他流行的变体是_分层_交叉验证和基于组的交叉验证。

训练集被分成 K-folds，模型在k-1个部分上进行训练。剩余部分用于评估模型。

这一切都发生在所谓的_交叉验证循环中。

在通过每个分段进行交互之后，我们将获得最终结果的平均表现。这提高了性能的有效性，因为在训练数据集的每个部分上都训练了一个“新”模型。然后，我们将得到一个最终分数，该分数总结了模型在许多验证步骤中的性能——与查看单个迭代的性能相比，这是一种非常可靠的方法！

让我们分解这个过程：

随机化数据集的每一行
将数据集划分为 k 个部分

对于每个组

1. 创建一个测试部分  
2. 将剩余部分分配给训练  
3. 训练模型并在提到的集合上对其进行评估  
4. 保存性能

通过在流程结束时取平均分来评估整体绩效

k 的值通常为 5 或 10，但Sturges规则可用于建立更精确的分割数

number of splits = 1 + log2(N)

其中 N 是样本总数。

R语言回归和主成分PCA 回归交叉验证分析预测城市犯罪率

在本文中，我解释了基本回归，并介绍了主成分分析 (PCA) 使用回归来预测城市中观察到的犯罪率。我还应用 PCA 创建了一个回归模型，用于使用前几个主成分对相同的犯罪数据进行建模。最后，我对两种模型的结果进行了比较，看看哪个表现更好。

相关视频

拓端

回归有助于显示因素和因变量之间的关系，它基本上回答了两种类型的问题；1. 吸烟对癌症的影响 2. 未来会发生什么？（例如）三年后的油价。

数据

犯罪学家对惩罚制度对犯罪率（查看文末了解数据免费获取方式）的影响感兴趣。已使用汇总数据对此进行了研究。数据集包含以下列：

变量描述
M： 14-24岁的男性在总人口中的百分比
So：南方的指标变量
Ed： 25岁或以上人口的平均受教育年限
Po1：年警察保护的人均支出
Po2：去年警察保护的人均支出
LF：14-24岁年龄组的城市男性平民的劳动力参与率
M.F：每100名女性的男性人数
Pop：国家人口，以十万计
NW：非白人在人口中的百分比
U1：14-24岁城市男性的失业率
U2：城市男性35-39岁的失业率
财富财富：可转让资产或家庭收入的中值
收入不平等：收入低于中位数一半的家庭的百分比
入狱概率：入狱人数与犯罪人数的比率
时间：罪犯在首次获释前在国家监狱中服刑的平均时间（月）。
犯罪：每10万人口中的犯罪数量

导入R环境

read("crim.txt")

检查变量是否正确

head(crim) #所有的变量都是预测因素，只有犯罪是因变量。

创建简单的回归模型

summary(model)

使用数据框架来手动创建我们的数据点测试，然后在测试数据上运行一些预测。

primodl <- predict(mdl, test)

输出值不到下一个最低城市的犯罪率的一半，所以我将创建第二个模型，观察它的输出并画出比较。

创建第二个模型

sumry(son_mel)

我们现在可以对第二个模型进行预测了

pic\_secn\_mel<- prict(sed_odel, tst)

pic\_secn\_mel

与第一个模型相比，其结果明显更高。所以，它更合理。

交叉验证

我们可以做一个5折的交叉验证。

cv(se，m=5)

我们可以得到数据和其平均值之间的平方差的总和

 sum((Cm- mean(ui))^2)

我们可以得到模型1、模型2和交叉验证的平方残差之和

SSrl <- sum(res^2)

SSre <- sum(resi^2)

res <- "ms")*nrow

我们也可以计算出3个模型的R平方值

 1 -res/tot

1-res/SS

 1-res/SS

获得的R平方值表明我们的拟合质量很好。对于惩罚性回归，有必要对数据进行标准化，以确保所有的特征都受到同等的惩罚。但在线性回归的情况下，这其实并不重要。它将只是转移截距和系数，但相关关系保持不变。

PCA

PCA是一种用于描述变化的方法，显示数据集中的强相关性，从而使其易于探索和可视化数据。PCA通过以下方式对数据进行转换：（1）去除数据中的相关关系（2）按重要性对坐标进行排序。

我们可以检查crime数据的预测变量之间的相关性。

pairs(srm,c("o",Ed"o"))

对数据集中的所有预测变量应用PCA。请注意，为了获得更准确的PCA结果，需要对这些变量进行标准化。

sumr(pca)
rotan #PCA旋转是特征向量的矩阵
pca

然后，我们可以通过绘制每个主成分的方差来决定在 "前几个 "主成分中使用多少个主成分。

plotpcaye ="ie")

要确定使用多少PC？我们可以尝试使用5个主成分作为开始。

pcax\[,1:5\]

使用前五个PC，我们可以继续建立一个线性回归模型。

 summary(mdPCA)

为了根据原始变量重建模型，首先我们从PCA线性回归模型中获得系数，之后通过使用主成分的特征向量将PCA成分系数转化为原始变量的系数。

PCA线性回归的系数

coefficients\[1\]
coefficients\[2:6\]

 beta0 #截距

转换

rot %*% beta

 t(alpha) # 标准化的数据系数

获得未标准化数据的系数。

 ahusl <- ahs / sppy(u\[,1:15\],sd)

 ba0cl <- ea0 - sum/sapply(sd))

未标准化数据的系数

 t(alas_sled)

 be0uced

#我们可以得到我们的未标准化数据的估计值

as.marx %*% unscle + beta0aled

最后，为了比较使用PCA的模型和使用回归的模型的质量，我们必须计算R-squared和调整后的R-squared，并将这些数值与前一个模型的数值进行比较。调整后的R平方考虑了模型中预测因子的数量。

 Rsquared <- 1 - SSE/SST # R-squared

使用所有变量的无PCA的先前线性回归模型

 summary(dlLR)

R-squared 和调整后的 R-squared 值都较高，这表明至少对于使用前五个主成分的模型，具有 PCA 的线性回归模型优于没有 PCA 的线性回归模型。为了检查使用不同数量的前 n 个主成分的线性回归模型是否产生了更好的拟合模型，我们可以使用循环并进一步进行交叉验证。