多分类问题中的unbalance数据集的分类

现在采用svm方法进行图像标注实验时,采用的词汇集合中,有些单词出现的图片数很少,甚至比特征维度还小。这种情况下,不管是用logistic regression 或者non-linear svm都无法得到好性能的分类器。 相当于方程数小于方程未知数的自由度,方程无精确解。


这种情况就是分类中常遇到的unbalance data。 对于这种问题,一般有以下解决方法:

(1)采用libsvm中自带的-wi选项,为正负样本分配不同的惩罚因子,具体可以参考libsvm对train函数的解释。

livsvm FAQ中是这样解释的:

Yes, there is a -wi options. For example, if you use: My data are unbalanced. Could libsvm handle such proble

> svm-train -s 0 -c 10 -w1 1 -w-1 5 data_file

the penalty for class "-1" is larger. Note that this -w option is for C-SVC only.

另外,有人也提出过这个建议

建议你可以采用两个方法解决:第一种是采用支持向量数据描述的方法,第二种采用支持向量机,但是我们要在惩罚因子C上做文章,SVM默认的是所有样本的惩罚因子都相同,这样的话,对于数据偏斜的问题就很麻烦,可以给样本数据少的那类更大的惩罚因子,表示我们重视这部分样本,不

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值