使用ggplot2绘制测试数据集的校准曲线(R语言)
校准曲线是评估分类模型预测概率的一种常用方法。它通过比较模型预测的概率和实际观测的概率来评估模型的准确性。在R语言中,我们可以使用ggplot2包来创建漂亮而直观的校准曲线图。
首先,我们需要准备测试数据集,并得到模型的预测概率。假设我们有一个二分类模型,并已经得到了测试数据集的真实标签和模型预测的概率。
# 导入所需的包
library(ggplot2)
# 准备测试数据集
labels <- c(0, 1, 1, 0, 1, 0, 0, 1, 1, 0) # 真实标签
probabilities <- c(0.2, 0.7, 0.6, 0.3, 0.8, 0.4, 0.1, 0.9, 0.75, 0.3) # 模型预测的概率
data <- data.frame(labels, probabilities)
# 计算校准曲线的数据
calibration_data <- data.frame(probability = seq(0, 1, by = 0.1))
calibration_data$accuracy <- sapply(calibration_data$probability, function(p) {
mean(data$labels[data$probabilities >= p] == 1)
})
接下来,我们可以使用ggplot2来创建校准曲线图。校准曲线图通常以模型预测的概率为横坐标,以实际观测的概率为纵坐标。
# 创建校准曲线图
ggplot(data = calibration_data, aes(x = probability, y = accuracy)) +
geom_line() +
geom_s