java做数据挖掘的混淆矩阵_《写给程序员的数据挖掘实践指南》——5.3混淆矩阵...

最新推荐文章于 2023-01-07 11:57:57 发布

林书尼

最新推荐文章于 2023-01-07 11:57:57 发布

阅读量340

点赞数

文章标签： java做数据挖掘的混淆矩阵

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35770958/article/details/114784869

版权

本文介绍了如何利用Python进行10折交叉验证和混淆矩阵分析，以评估数据挖掘分类器的性能。通过具体例子展示了如何在汽车MPG数据集上实现这一过程，并提供了相应的Python代码示例。

摘要由CSDN通过智能技术生成

本节书摘来自异步社区出版社《写给程序员的数据挖掘实践指南》一书中的第5章，第5.3节，作者：【美】Ron Zacharski(扎哈尔斯基)，更多章节内容可以访问云栖社区“异步社区”公众号查看。

5.3混淆矩阵

到目前为止，通过计算下列精确率百分比，我们对分类器进行评估：

有时，我们可能希望得到分类器算法的更详细的性能。能够详细揭示性能的一种可视化方法是引入一个称为混淆矩阵(confusion matrix)的表格。混淆矩阵的行代表测试样本的真实类别，而列代表分类器所预测出的类别。

它之所以名为混淆矩阵，是因为很容易通过这个矩阵看清楚算法产生混淆的地方。下面以女运动员分类为例来展示这个矩阵。假设我们有一个由100名女子体操运动员、100名WNBA篮球运动员及100名女子马拉松运动员的属性构成的数据集。我们利用10折交叉验证法对分类器进行评估。在10折交叉测试中，每个实例正好只被测试过一次。上述测试的结果可能如下面的混淆矩阵所示：

同前面一样，每一行代表实例实际属于的类别，每一列代表的是分类器预测的类别。因此，上述表格表明，有83个体操运动员被正确分类，但是却有17个被错分为马拉松运动员。92个篮球运动员被正确分类，但是却有8个被错分为马拉松运动员。85名马拉松运动员被正确分类，但是却有8个人被错分为体操运动员，还有16个人被错分为篮球运动员。

混淆矩阵的对角线给出了正确分类的实例数目。

上述表格中，算法的精确率为：

通过观察上述矩阵很容易了解分类器的错误类型。在本例当中，分类器在区分体操运动员和篮球运动员上表现得相当不错，而有时体操运动员和篮球运动员却会被误判为马拉松运动员，马拉松运动员有时被误判为体操运动员或篮球运动员。

一个编程的例子

回到上一章当中提到的来自卡内基梅隆大学的汽车MPG数据集，该数据集的格式如下：

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java做数据挖掘的混淆矩阵_《写给程序员的数据挖掘实践指南》——5.3混淆矩阵...

本节书摘来自异步社区出版社《写给程序员的数据挖掘实践指南》一书中的第5章，第5.3节，作者：【美】Ron Zacharski(扎哈尔斯基)，更多章节内容可以访问云栖社区“异步社区”公众号查看。5.3混淆矩阵到目前为止，通过计算下列精确率百分比，我们对分类器进行评估：有时，我们可能希望得到分类器算法的更详细的性能。能够详细揭示性能的一种可视化方法是引入一个称为混淆矩阵(confusion matri...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。