数据生成与元优化:CTGAN与超参数调优
1. CTGAN:条件表格生成对抗网络
CTGAN(Conditional Tabular GAN)是一种用于生成表格数据的强大工具。它的官方实现以方便易用的包形式提供,可通过pip进行安装:
pip install sdv
1.1 简单CTGAN示例
为了保持一致性和便于比较,我们使用Higgs Boson数据集来生成人工样本。以下是一个简单的CTGAN训练和采样示例:
# using test dataset since it has more samples
import pandas as pd
from sdv.tabular import CTGAN
data = pd.read_csv("../input/higgsb/test.csv")
ctgan_model = CTGAN(verbose=True)
ctgan_model.fit(data)
new_data = ctgan_model.sample(num_rows=800)
在没有进行任何超参数调优的情况下,CTGAN的性能与之前讨论的VAE相比非常出色。从生成的合成数据和实际数据集的双变量关系对图来看,两者几乎难以区分。
1.2 条件生成
CTGAN的“C”(条件)特性赋予了模型很大的灵活性。我们可以指定“primary_key”来为特定特征生成唯一数据,并使用“anonymize_field”选项
超级会员免费看
订阅专栏 解锁全文
2020

被折叠的 条评论
为什么被折叠?



