【读论文】基于三支决策的不平衡数据过采样方法

最新推荐文章于 2023-08-23 22:06:55 发布

牛八小圣

最新推荐文章于 2023-08-23 22:06:55 发布

阅读量1.1k

点赞数 1

分类专栏：粗糙集学习文章标签：机器学习算法分类

本文链接：https://blog.csdn.net/qq_42114130/article/details/122124836

版权

粗糙集学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

基于三支决策的不平衡数据过采样方法

参考论文：

[1] 胡峰,王蕾,周耀. 基于三支决策的不平衡数据过采样方法[J]. 电子学报,2018(1). DOI:10.3969/j.issn.0372-2112.2018.01.019.

[2] 李航. 基于粗糙集的不平衡数据采样方法研究[D]. 2014. DOI:10.7666/d.D598925.

[3] CHEN, YUMIN, ZENG, ZHIQIANG, ZHU, QINGXIN, et al. Three-way decision reduction in neighborhood systems[J]. Applied Soft Computing,2016. DOI:10.1016/j.asoc.2015.10.059.

[4] 向伟,王新维. 基于多类邻域三支决策模型的不平衡数据分类[J]. 计算机科学,2020(5). DOI:10.11896/jsjkx.180601099.

[5] HU, FENG, LI, HANG. A Novel Boundary Oversampling Algorithm Based on Neighborhood Rough Set Model: NRSBoundary-SMOTE[J]. Mathematical Problems in Engineering: Theory, Methods and Applications,2013(Pt.13). DOI:10.1155/2013/694809.

算法步骤：

TWD-IDOS 算法1
Input：训练集，邻域半径权重w，阈值k（近邻个数）
Output：正域样本集（PosSet），边界域样本集（BndSet），负域样本集（NegSet）
--------------------------------
1.初始化：BndSet={},PosSet={},NegSet={},k=5,w=[0.01, 0.05]
2.根据决策属性划分正类样本和负类样本集合
3.计算每个样本的邻域类
├── 3.1 计算样本xi与xj之间的距离
│   └── 对于连续型属性：使用欧式距离
│   └── 对于分类型属性：使用VDM距离度量（代码改进）
├── 3.2 计算样本xi的邻域半径delta（论文：公式(8)）
├── 3.3 根据delta计算xi的邻域类
4.根据定义3，将训练样本划分成正域样本集，边界域样本集，负域样本集（改动，原因：分不出负域）
（疑惑：alpha，beta怎么得来，没有可解释性）

TWD-IDOS 算法2
Input：正域样本集，边界域样本集，负域样本集，阈值k
Output：新的训练样本集NewTrainSet
--------------------------------
1.对于边界域样本中的正类样本进行过采样
├── 1.1 使用SMOTE合成新的样本（有问题：不能处理分类型特征。可改进）
├── 1.2 对每个合成的样本Xnew，判断其是否对正域集产生影响。
│   └── 具体操作：判断Xnew是不是属于每一个正域样本的邻域类，如果是，不加入生成样本集合NewSet；否则加入
2.对负域样本集中的正类样本进行过采样
├── 2.1 对负域的每一个正类样本，放大其邻域半径，使得=> delta'=2*delta。并计算在delta'下的邻域类
├── 2.2 判断：delta'下的邻域类中有正类样本
│   └── Then：计算xi在delta下所有样本的距离，找出一个距离最小的。
│   └──       然后以这个距离为邻域半径，在这个邻域范围内生成k个正类样本
├── 2.2 判断：否则
│   └── 如果delta'下的邻域类中没有正类样本，则将这个样本从负域中删除
3.合成新的训练集
├── NewTrainSet = PosSet∪BndSet∪NegSet∪NewSet

手写截图：
在这里插入图片描述

发现问题：

1.与论文设置相同阈值alpha=k，beta=k/k+1，分不出负域样本集
2.阈值alpha，beta，fx函数定义，没有解释。从天而降

修改之处：

部分实验结果：

数据集：ecoli3
原本数据分布：
在这里插入图片描述
平衡后数据分布：
数据集：ecoli1
原本数据分布：
平衡后数据分布：
数据集：yeast3
原本数据分布：
平衡后数据分布：

牛八小圣

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
【读论文】基于三支决策的不平衡数据过采样方法

基于三支决策的不平衡数据过采样方法参考论文：[1] 胡峰,王蕾,周耀. 基于三支决策的不平衡数据过采样方法[J]. 电子学报,2018(1). DOI:10.3969/j.issn.0372-2112.2018.01.019.[2] 李航. 基于粗糙集的不平衡数据采样方法研究[D]. 2014. DOI:10.7666/d.D598925.[3] CHEN, YUMIN, ZENG, ZHIQIANG, ZHU, QINGXIN, et al. Three-way decision reductio
复制链接

扫一扫