如有150个样本数据,这些数据分成3类,每类50个。分类结束后得到的混淆矩阵为:
类1 | 类2 | 类3 | |
类1 | 43 | 5 | 2 |
类2 | 2 | 45 | 3 |
类3 | 0 | 1 | 49 |
每一行之和为50,表示50个样本,
第一行说明类1的50个样本有43个分类正确,5个错分为类2,2个错分为类3
*混淆矩阵是用来反映某一个分类模型的分类结果的,其中行代表的是真实的类,列代表的是模型的分类。
数据集的真实情况是:
a类有100个,b类有60个,c类有40个。
模型的结果为:被分为a类的有120个,被分为b类的有60个,被分为c类的有20个。
共和党 | 民主党 | 无党派 | |
共和党 | 42 | 2 | 1 |
民主党 | 5 | 40 | 3 |
无党派 | 0 | 3 | 4 |
(1) 分类的正确率和错误率分别是多少?
正确率:(42+40+4)/(42+2+1+5+40+3+0+3+4)=86/ 100 = 86%
错误率:1-86%=14%
(2) 参议院中分别有几名民主党、几名共和党,几名无党派议员?
民主:5+40+3=48
共和:42+2+1=45
无党:0+3+4=7
(3) 有几名共和党人士被分类到民主党?有几名无党派人士被分类到共和党?
2个(第“共和党”行第“民主党”列)。
0个(第“无党派”行第“共和党”列)。