文本分类问题中数据不均衡的解决方法的探索

Data Skew

数据倾斜是数据挖掘中的一个常见问题,它严重影响的数据分析的最终结果,在分类问题中其影响更是巨大的,例如在之前的文本分类项目中就遇到类别文本集合严重不均衡的问题,本文主要结合项目实验,介绍一下遇到数据不均衡问题时的常见解决方法。


数据倾斜的解决方法

1.过采样和欠采样
过采样

    过采样是处理样本不均衡的一个基本解决方法,其实现简单高效,通过拓展样本数少的类别的样本来解决样本不均衡问题。

    1.直接复制,即不断复制类别样本数少的类别样本。

    2.插值法:通过对样本归一化,采样,求得样本分布,极值,均值等,然后根据样本分布,极值,均值来生成新样本来扩充样本数目。

欠采样

   与过采样类似,只是采用减少类别样本数多的类别的样本数目

   1.直接删除

   2.随机删除

   3.聚类

2.Loss解决样本不均衡问题 
RBG和Kaiming给出的相当牛逼的方法,这里不做详细介绍。
详情见链接:http://blog.csdn.net/u014380165/article/details/77019084

3.以上各种方法,要么相当复杂,要么效果不是那么好。(针对个人文本分类项目)
首先凯明大神的focal loss 方法,针对像深度神经网络这些复杂的模型,具有很好的使用价值,但是针对传统分类器,小样本集情况下,实施有一定的难度。而简单过采样和欠采样对与文本分类问题效果几乎为0。于是乎,本文简单介绍一下过采样中不是简单的样本复制,二是采用文本生成的方式,解决文本样本不均衡的问题。
本文首先分析样本数少的类别,通过文本句法依赖分析,文本词性标记分析词的相关属性,然后采用同义词替换的方式生成新的文本。方法简单有效。实测效果:
predict_train_Accuracy 98.37% 82.51%
predict_test_Accuracy 70.78% 81.32%

  • 5
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 10
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值