使用ggplot2绘制训练数据集的校准曲线(Calibration Curve)- R语言
校准曲线是在机器学习中用于评估模型预测概率的重要工具之一。它可用于检查分类模型的预测概率与实际观测概率之间的偏差。在R语言中,我们可以使用ggplot2库来绘制训练数据集的校准曲线。在本文中,我们将演示如何使用ggplot2库创建校准曲线的可视化。
首先,我们需要加载所需的库和数据集。假设我们已经有一个已经训练好的二分类模型,并且我们拥有一个包含预测概率和实际标签的训练数据集。以下是一个简单的示例数据集:
# 加载所需的库
library(ggplot2)
# 示例数据集
predicted_probabilities <- c(0.1, 0.3, 0.4, 0.6, 0.8)
actual_labels <- c(0, 0, 1, 1, 1)
# 创建数据框
data <- data.frame(predicted_probabilities, actual_labels)
接下来,我们将使用数据集来计算校准曲线所需的指标。我们可以使用cut()
函数将预测概率分成不同的区间,并计算每个区间内的平均预测概率和实际观测概率的比例。以下是计算校准指标的代码:
# 计算校准指标
calibration_data <- data %>%
mutate(probability_interval = cut(predicted_probabilities, breaks = seq(0, 1, by = 0.1), include.lowest = TRUE)) %>%
group_by(probability_interval) %>%
summarize(mean_predicted_probabi