多分类问题中的unbalance数据集的分类

最新推荐文章于 2024-07-29 17:57:20 发布

且歌且行

最新推荐文章于 2024-07-29 17:57:20 发布

阅读量4k

点赞数

分类专栏：机器学习文章标签：数据挖掘算法 class 生活编程测试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/inter_xuxing/article/details/7958778

版权

本文探讨了在多分类问题中遇到的不平衡数据集问题，特别是使用SVM进行图像标注时遇到的问题。文章提出了两种解决方法：1) 使用libsvm的-wi选项调整正负样本的惩罚因子；2) 采用逐次泛化方法平衡样本比例。此外，还介绍了其他处理不平衡数据集的策略，如SMOTE和随机下采样，并指出SVM对均匀样本数更有效。

摘要由CSDN通过智能技术生成

现在采用svm方法进行图像标注实验时，采用的词汇集合中，有些单词出现的图片数很少，甚至比特征维度还小。这种情况下，不管是用logistic regression 或者non-linear svm都无法得到好性能的分类器。相当于方程数小于方程未知数的自由度，方程无精确解。

这种情况就是分类中常遇到的unbalance data。对于这种问题，一般有以下解决方法：

（1）采用libsvm中自带的-wi选项，为正负样本分配不同的惩罚因子，具体可以参考libsvm对train函数的解释。

livsvm FAQ中是这样解释的：

Yes, there is a -wi options. For example, if you use: My data are unbalanced. Could libsvm handle such proble

> svm-train -s 0 -c 10 -w1 1 -w-1 5 data_file

the penalty for class "-1" is larger. Note that this -w option is for C-SVC only.

另外，有人也提出过这个建议

建议你可以采用两个方法解决：第一种是采用支持向量数据描述的方法，第二种采用支持向量机，但是我们要在惩罚因子C上做文章，SVM默认的是所有样本的惩罚因子都相同，这样的话，对于数据偏斜的问题就很麻烦，可以给样本数据少的那类更大的惩罚因子，表示我们重视这部分样本，不

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。