HexaGAN:Generative Adversarial Nets for Real World Classification解读
-
解决的问题:大部分的分类模型中需要干净的数据,然而中现实中的数据大部分存在三个问题
1)数据丢失:数据完全随机丢失(MCAR),数据随机丢失(MAR),数据丢失(但是)不是随机的(MNAR)。
2)类别不均衡:这是机器学习中的问题,其中一类数据的总数(正)远小于另一类数据的总数(负)。 这个问题在实践中极为 普遍,可以在包括欺诈检测,异常检测,医学诊断,漏油检测,面部识别等在内的各个学科中观察到。
3) 标签丢失:部分样本数据的标签丢失或不足 -
解决办法:本文通过创建HexaGAN网络来同时解决这三类问题,从而对真实数据进行分类:整个网络分为三个模块由六个组件组成,整个网络如下:
图中及文中所用符号说明:
E:编码器 将标记和未标记的实例都转移到隐藏空间中。
GMI:生成器 填补缺失的数据
GCG生成器 生成条件隐藏向量1)丢失数据填补(Missing Data Imputation):使用生成模型表示的数据分布来填充缺失元素。