【读论文】基于三支决策的不平衡数据过采样方法

基于三支决策的不平衡数据过采样方法

参考论文:

[1] 胡峰,王蕾,周耀. 基于三支决策的不平衡数据过采样方法[J]. 电子学报,2018(1). DOI:10.3969/j.issn.0372-2112.2018.01.019.

[2] 李航. 基于粗糙集的不平衡数据采样方法研究[D]. 2014. DOI:10.7666/d.D598925.

[3] CHEN, YUMIN, ZENG, ZHIQIANG, ZHU, QINGXIN, et al. Three-way decision reduction in neighborhood systems[J]. Applied Soft Computing,2016. DOI:10.1016/j.asoc.2015.10.059.

[4] 向伟,王新维. 基于多类邻域三支决策模型的不平衡数据分类[J]. 计算机科学,2020(5). DOI:10.11896/jsjkx.180601099.

[5] HU, FENG, LI, HANG. A Novel Boundary Oversampling Algorithm Based on Neighborhood Rough Set Model: NRSBoundary-SMOTE[J]. Mathematical Problems in Engineering: Theory, Methods and Applications,2013(Pt.13). DOI:10.1155/2013/694809.

算法步骤:

TWD-IDOS 算法1
Input:训练集,邻域半径权重w,阈值k(近邻个数)
Output:正域样本集(PosSet),边界域样本集(BndSet),负域样本集(NegSet)
--------------------------------
1.初始化:BndSet={},PosSet={},NegSet={},k=5,w=[0.01, 0.05]
2.根据决策属性划分正类样本和负类样本集合
3.计算每个样本的邻域类
├── 3.1 计算样本xi与xj之间的距离
│   └── 对于连续型属性:使用欧式距离
│   └── 对于分类型属性:使用VDM距离度量(代码改进)
├── 3.2 计算样本xi的邻域半径delta(论文:公式(8))
├── 3.3 根据delta计算xi的邻域类
4.根据定义3,将训练样本划分成正域样本集,边界域样本集,负域样本集(改动,原因:分不出负域)
(疑惑:alpha,beta怎么得来,没有可解释性)
TWD-IDOS 算法2
Input:正域样本集,边界域样本集,负域样本集,阈值k
Output:新的训练样本集NewTrainSet
--------------------------------
1.对于边界域样本中的正类样本进行过采样
├── 1.1 使用SMOTE合成新的样本(有问题:不能处理分类型特征。可改进)
├── 1.2 对每个合成的样本Xnew,判断其是否对正域集产生影响。
│   └── 具体操作:判断Xnew是不是属于每一个正域样本的邻域类,如果是,不加入生成样本集合NewSet;否则加入
2.对负域样本集中的正类样本进行过采样
├── 2.1 对负域的每一个正类样本,放大其邻域半径,使得=> delta'=2*delta。并计算在delta'下的邻域类
├── 2.2 判断:delta'下的邻域类中有正类样本
│   └── Then:计算xi在delta下所有样本的距离,找出一个距离最小的。
│   └──       然后以这个距离为邻域半径,在这个邻域范围内生成k个正类样本
├── 2.2 判断:否则
│   └── 如果delta'下的邻域类中没有正类样本,则将这个样本从负域中删除
3.合成新的训练集
├── NewTrainSet = PosSet∪BndSet∪NegSet∪NewSet

手写截图:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

发现问题:

1.与论文设置相同阈值alpha=k,beta=k/k+1,分不出负域样本集
2.阈值alpha,beta,fx函数定义,没有解释。从天而降

修改之处:


部分实验结果:


数据集:ecoli3
原本数据分布:
在这里插入图片描述
平衡后数据分布:在这里插入图片描述
数据集:ecoli1
原本数据分布:在这里插入图片描述
平衡后数据分布:在这里插入图片描述
数据集:yeast3
原本数据分布:在这里插入图片描述
平衡后数据分布:在这里插入图片描述

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值