我有一个包含4669个观测值和15个变量的数据集 .
我正在使用随机森林来预测某个特定产品是否会被接受 .
使用我的最新数据,我的输出变量为“是”,“否”和“” .
我想预测这个“”是否会有“是”或“否” .
我使用以下代码 .
library(randomForest)
outputvar
inputvar1
inputvar2
data
data$outputvar
ind0
train0
test0
fit1
print(fit1)
plot(fit1)
p1
fit1$confusion
p2
t
t
上面的代码完美运行 . 我提到的数据帧只是一个示例数据帧 . 因为,我不应该生成原始数据 .
您可以注意到我已将训练数据和测试数据分为70%和30% . 根据我的观察,我可以通过1377次观察和3293次观察训练找到测试数据 .
当我计算测试数据集的混淆矩阵时,我发现它只计算了1363个观测值,剩下14个观测值 .
此外,我使用测试数据集将表格显示为预测矩阵 . 所有这些NA都替换为是或否 .
我的疑问是,为什么我的混淆矩阵在观察上有差异?
那些NA在我的预测矩阵中被替换为是和否是真实的预测吗?
我是R的新手,任何信息都会有所帮助