wendy_ya
控制类专业在读研究生
展开
-
FGAN介绍及代码实现——基于生成对抗网络的缺失数据填补
包括GAIN在内的许多现有的方法都认为标签预测是一个数据填充后的问题,也就是说,他们首先填充数据,然后开发一个预测模型,就好像数据是完全观测的。数据填充完后,再使用新的预测器进行标签预测。将数据填充与标签预测两个任务分割开来。然而数据填充与标签预测之间的脱节很可能会损害标签预测的准确性,但我们最关心的任务实际上是标签预测任务的性能。在本节中,我们提出了一个数据填充与标签预测的统一框架,将数据填充和标签预测两个任务结合在一起。原创 2023-02-28 10:50:48 · 1454 阅读 · 3 评论 -
Wasserstein Slim GAIN with Gradient Penalty(WSGAIN-GP)介绍及代码实现——基于生成对抗网络的缺失数据填补
WSGAIN-GP全称Wasserstein Slim GAIN with Gradient Penalty,其目的在于减少影响普通GAN以及影响WGAN的主要警告,即因权重剪裁而产生的不良行为。WSGAIN-GP的架构与WSGAIN-CP几乎相同。WSGAIN-CP的架构可以参考文章:Wasserstein Slim GAIN with Clipping Penalty(WSGAIN-CP)介绍及代码实现——基于生成对抗网络的缺失数据填补。WSGAIN-GP的生成器与WSGAIN-CP的生成器完全相同。.原创 2022-07-06 10:36:06 · 1056 阅读 · 1 评论 -
Wasserstein Slim GAIN with Clipping Penalty(WSGAIN-CP)介绍及代码实现——基于生成对抗网络的缺失数据填补
WSGAIN-CP全称Wasserstein Slim GAIN with Clipping Penalty,其目的在于减少影响Slim GAN的主要问题,如模式崩溃和梯度消失。WSGAIN-CP的架构与SGAIN几乎相同。SGAIN的架构可以参考文章:Slim GAIN(SGAIN)介绍及代码实现——基于生成对抗网络的缺失数据填补。WSGAIN-CP的生成器与SGAIN的生成器相同,它们甚至共享相同的损失函数,可参考前文。...原创 2022-07-01 16:01:59 · 801 阅读 · 0 评论 -
Slim GAIN(SGAIN)介绍及代码实现——基于生成对抗网络的缺失数据填补
SGAIN网络架构如下:与GAIN的架构不同,SGAIN中没有Hint Generator,因此不会产生Hint Matrix(提示矩阵)。SGAIN的架构甚至更薄,因为生成器和判别器神经网络都只有两层,而在GAIN中它们都有三层。SGAIN在生成器和判别器的输出层使用双曲正切激活函数(又名tanh)。使用tanh而不是sigmoid激活函数的理由有两方面:SGAIN的体系结构还调用了两次判别器,一次针对真实数据,一次针对虚假数据。这使得SGAIN的架构更接近于Goodfellow等人在GAN中使用的架.原创 2022-06-27 20:45:53 · 1650 阅读 · 2 评论 -
GAIN的代码实现(4)——基于GAN的Spam数据集缺失数据填补(序)【改进版】
本文在上文基础上,介绍一下基于GAN的Spam数据集缺失数据填补改进版。希望先看完上文,再看本文,且以本文为主。Spam上文已经介绍过了,这里不再赘述。原创 2022-06-27 16:53:34 · 1267 阅读 · 7 评论 -
缺失数据填补数据集介绍(2)——多种数据集介绍及数据集预处理(mushroom、news、spam、wine-red和yeast)
本文将介绍缺失数据填补常用数据集介绍及其预处理方法中的后五个,分别是mushroom数据集、news数据集、spam数据集、wine-red数据集和yeast数据集。原创 2022-06-20 17:19:33 · 1130 阅读 · 0 评论 -
缺失数据填补数据集介绍(1)——多种数据集介绍及数据集预处理(breast、covertype、credit、eeg、iris和letter)
本文将介绍缺失数据填补常用数据集介绍及其预处理方法中的前六个,分别是breast数据集、covertype数据集、credit数据集、eeg数据集、iris数据集和letter数据集。原创 2022-06-20 16:02:39 · 1008 阅读 · 0 评论 -
GAIN的代码实现(3)——基于GAN的Spam数据集缺失数据填补(序)
上文(GAIN的代码实现(2)——基于GAN的Spam数据集缺失数据填补)介绍了利用生成对抗网络进行Spam数据集缺失数据填补,本文将在此基础上,介绍利用生成对抗网络进行Spam数据集缺失数据填补的另一种方法。......原创 2022-06-16 19:11:47 · 1549 阅读 · 1 评论 -
GAIN的代码实现(2)——基于GAN的Spam数据集缺失数据填补
本文介绍基于生成对抗网络的Spambase DataSet数据集缺失数据填补源码实现。“spambase.data”的最后一列表示该电子邮件是否被视为垃圾邮件(1)或非垃圾邮件(0),即未经请求的商业电子邮件。大多数属性表示电子邮件中是否经常出现特定的单词或字符。游程长度属性(55-57)测量连续大写字母序列的长度。...原创 2022-06-02 20:38:07 · 1188 阅读 · 0 评论 -
GAIN的代码实现(1)——基于GAN的MNIST数据集图像缺失数据填补
目录一、环境搭建二、GAIN架构2.1 生成器G2.2 判别器D三、其他结构3.1 掩模向量M3.2 其他函数3.3 参数初始化设置3.4 开始训练四、结果演示五、完整代码本文以MNIST数据集为例,演示利用GAIN对图像缺失数据进行填补的代码实现。一、环境搭建Python环境使用的是Python3.7,Tensorflow1.15.0和PyTorch1.11.0。二、GAIN架构2.1 生成器G首先定义生成器,生成器代码如下:class G(torch.nn.Module): def原创 2022-05-27 17:54:13 · 1527 阅读 · 0 评论 -
GAIN: Missing Data Imputation using Generative Adversarial Nets(基于生成对抗网络的缺失数据填补)论文详解
目录一、背景分析1.1 缺失数据1.2 填补算法二、GAIN2.1 GAIN网络架构2.2 符号描述(Symbol Description)2.3 生成器模型2.4 判别器模型2.5 提示向量Hint三、算法流程四、总结我们一直被缺失的数据包围着。长期以来,统计分析中因数据缺失而产生的问题一直被掩盖着。这些时代现在正在慢慢结束。在过去的几十年中,处理缺失数据的一系列技术已经大大扩展。本专题将介绍利用生成对抗网络进行缺失数据填补,欢迎关注。一、背景分析原始论文链接:GAIN: Missing Data原创 2022-05-26 16:59:57 · 2142 阅读 · 0 评论 -
缺失数据填补基础方法(3)——Multiple Imputation by Chained Equations (MICE)
MICE(链式方程多重填补)是一种多重填补,由于其易于实施,并且能够保持无偏效应估计和有效推断,被公认为填补缺失流行病学数据的主要策略。因此,MICE进行多重回归填补。MICE是一种多重填补方法,其中缺失值被多次填充以创建完整的数据集。...原创 2022-06-08 11:17:26 · 12223 阅读 · 1 评论 -
缺失数据填补基础方法(2)——Random Forest (MissForest)填补
MissForest以迭代的方式使用随机森林来填补缺失值[1]。默认情况下,填补器开始用最少数量缺失值来填补缺失值的列(它应该是变量)——我们称之为候选列(candidate column)。原创 2022-06-07 16:29:13 · 5229 阅读 · 1 评论 -
缺失数据填补基础方法(1)——k-Nearest Neighbors (kNN) 填补
kNNImputer类提供了使用k-Nearest Neighbors(KNN)算法完成缺失值的填补。每个样本的缺失值都是使用在训练集中找到的n_neighbors个近邻的值来估算的,请注意,如果一个样本缺少多个特征,则该样本可以会有多组n_neighbors邻域供体,具体取决于填补的特定特征。......原创 2022-06-07 16:21:00 · 8714 阅读 · 1 评论