概率因果图作为分类数据合成器:它们是否比高斯Copula和条件表格GAN表现更好?

Olha Shaposhnyk, Noor Abid, Mouri Zakir 和 Svetlana Yanushkevich
生物识别技术实验室,舒立克工程学院
加拿大卡尔加里大学
olha.shaposhnyk1@ucalgary.ca

2025年4月17日

摘要

本研究探讨了使用因果图模型生成高质量的合成分类数据(如调查数据)的方法。生成合成数据不仅旨在为模型训练创建多样化的数据,还旨在捕捉数据之间的关系同时保护隐私。研究采用了结构方程建模(SEM),随后是贝叶斯网络(BN)。我们使用了基于残疾人服务可及性调查的分类数据。我们创建了SEM和BN模型以表示因果关系并捕获变量之间的联合分布。在我们的案例研究中,这些变量特别包括人口统计学特征、残疾类型、无障碍障碍类型以及遇到这些障碍的频率。本研究将基于SEM的BN方法与替代方法进行了比较,包括概率高斯Copula技术和生成模型如条件表格生成对抗网络(CTGAN)。所提出的方法在统计指标上优于其他方法,包括卡方检验、Kullback-Leibler散度和总变差距离(TVD)。特别是,BN模型表现出优越性能,TVD最高,表明与原始数据一致。高斯Copula排名第二,而CTGAN表现出中等性能。这些分析确认了基于SEM的BN生成合成数据的能力,这些数据能够保持统计和关系有效性,同时维护保密性。这种方法对敏感数据的研究尤其有益,例如无障碍和残疾研究。

关键词 合成数据 ⋅ \cdot 贝叶斯网络 ⋅ \cdot 决策制定 ⋅ \cdot 数据保密性 ⋅ \cdot 数据分布

1 引言

收集和共享分类数据(如调查结果)引发了隐私问题,限制了研究的可用性。这些问题使得创建准确的人工智能模型变得困难。合成数据提供了一种解决方案,通过允许分析的同时维护个人隐私并解决数据稀缺问题。

合成数据是为了复制原始数据的关键特征而生成的,并越来越多地用于训练人工智能模型、支持统计推断和扩展数据访问,同时减轻隐私和保密风险 [1-3]。隐私是指个人对其个人信息披露的权利,而保密涉及保护收集到的数据并确保仅用于授权的统计目的。为解决这些问题,像NIST这样的组织正在开发防止保密泄露的数据管理标准 [2]。合成数据提供了一个实用的解决方案,通过在数据上进行分析,这些数据与真实数据集非常相似,同时保护参与者信息。此外,它们帮助克服数据稀缺问题,在机器学习中类似于数据增强,通过生成多样的训练样本。这对于增强因果模型特别有益,因果模型通常需要大型且具有代表性的数据集来确保一致和可靠的结果。
我们用作案例研究的分类数据基于加拿大的残疾人调查 [4],该调查重点关注残疾人获得服务的环境障碍。这些障碍被分为四类:沟通、态度、信息和通信技术(ICT)以及物理/交通。残疾类型包括听力、视力、行动能力、灵活性、灵巧性、学习能力、疼痛、心理健康、记忆和发展。分析这些障碍及其与人口统计学特征、残疾类型和遇到每个障碍频率的关系非常重要,这有助于消除可能阻止残疾人平等获得机会的障碍。
然而,健康和社会领域的现实世界数据往往稀少且敏感。年龄、性别和残疾类型等属性属于这些类别。在一个有限地理区域内的小部分人口中收集和共享调查数据会引发隐私问题,限制其研究可用性。这些问题使得创建准确的数据及其因果关系模型变得困难。
在本研究中,我们调查了生成和分析合成数据的选择方法,这些数据代表从调查中提取的残疾人无障碍障碍及相关因素的统计数据。我们考虑设计一个贝叶斯网络(BN)模型,旨在表示这些障碍和因素之间的因果关系 [5],然后应用这些关系进行数据合成。BN在数据生成中的优势在于,它们捕获了相关变量的联合分布,从而提供了更好的数据“近似”。
本文结构如下:第二部分介绍了最重要的相关工作。第三部分概述了本研究中应用的数据和方法。实验研究和结果在第四和第五节中描述。最后,第六节总结了本文。

2 问题表述和贡献

研究问题表述如下:生成合成分类数据的最佳方法是什么?这些数据应保留真实世界数据集的统计特性及变量间的因果关系,同时确保原始数据的保密性。我们关注因果关系,因为它允许进行推理,例如根据历史数据和当前观察预测潜在情景,即它允许因果建模。生成的数据应支持原始数据集中观察到的复杂依赖关系和联合分布,以确保其在分析和建模中的实用性。同时,重要的是通过最小化重新识别的风险并考虑社会和健康数据,保证原始参与者的保密性。
在本工作中,我们考虑残疾人面临的无障碍障碍的分类数据。为了捕获此类数据的联合分布,我们创建了通过结构方程建模(SEM)和专家验证开发的因果图模型,随后实施了概率因果图和BN。我们利用这些模型进行数据生成。我们假设这些模型通过有效捕获变量间的依赖关系和联合分布,生成更接近真实模式的数据。生成的合成数据集被评估其质量和可用性。

3 文献综述

合成数据生成已成为应对隐私、数据稀缺和类别不平衡等各种领域挑战的重要工具。已经开发了多种技术来创建逼真的合成数据集,包括基于计算机图形的方法[6]、传统机器学习算法[7]以及最近的先进深度学习方法。这些最先进的方法利用生成机器学习模型,如生成预训练变换器(GPT)[16]、生成对抗网络(GANs)[8],[17]、变分自编码器(VAEs)[18]和概率因果模型如BNs[14]。
合成数据生成的一般原则是生成数值数据,通过从实际统计模式中学习来近似真实世界的分布。
在基于代理的模型中创建和训练于真实观察,合成数据可以使用构建的代理模型随机生成。也可以采用混合方法,首先基于统计分布构造数据集,然后通过基于代理的建模生成合成数据。
GAN最初用于图像合成,但在表格数据分析中也得到了广泛应用[9-11]。例如,GAN成功用于创建支持数据安全的合成临床数据[12]。其生成逼真数据集的能力使其成为医疗保健等行业的一个有前途的工具,因为数据隐私至关重要。然而,虽然GAN在各种应用中表现出色,但其在无障碍数据生成方面的应用,尤其是针对残疾人的无障碍数据生成,仍相对较少探索。
概率因果模型,特别是BNs[13],是另一种合成数据生成方法[14]。BNs通过联合概率分布和条件依赖关系以有向无环图的形式表示变量间的关系。BN中的节点代表变量,节点之间的边表示依赖关系。基于BN的方法能够保留原始数据集中的统计特性和变量间的关系。这一特点使BNs在医疗保健等行业生成合成数据时非常有用,因为在这些行业中捕获复杂关系至关重要。尽管BN在健康领域的应用日益增多,但使用BN生成残疾人无障碍数据是一个新兴领域。BN可以通过确保生成的数据保留原始数据的统计特性同时保护隐私,降低识别特定个体的风险,特别是在包含罕见或敏感属性的数据集中[20]。BN的优势在于明确建模变量间的依赖关系。BN捕获这些关系的能力使其在生成复杂数据集(如无障碍数据)方面特别有价值,理解不同因素间的关系对于有意义的分析至关重要。这种方法生成高质量的合成数据,既统计准确又合乎伦理。
虽然GPT主要用于生成文本,GAN和VAE则用于生成视频和时间序列及信号。最近,GAN和VAE也被用于生成表格数据,包括分类数据,如医疗和健康记录[12,19]。分类数据指的是表示统计数据的数组或表格,例如人口统计数据或随时间记录的生命体征。
现有方法,包括GAN和概率模型如BN,尚未全面应用于生成分类数据。它们也未应用于我们考虑的案例研究:分析影响残疾人服务可及性的因素。
本文通过利用基于SEM的BN,解决了这些空白,平衡了保留原始数据统计特性和关系与隐私保护之间的关系,特别是在无障碍研究这一社会敏感领域。

4 方法论

本节描述了本研究中用于合成数据的方法。
我们对原始调查数据应用了预处理技术,随后实现了概率因果图,如SEM和BN。我们将它们与替代方法进行比较,如高斯Copula和条件表格GAN(CTGAN)[9]。使用统计指标对生成的合成数据集进行评估,包括卡方检验、Kullback-Leibler(KL)散度和总变差距离(TVD)(图1)。
在本研究中,BN既是合成数据的工具,也是在给定先验和当前观察的情况下实现推理或预测各种场景或后验分布的工具。我们设计了两个实验:一个是使用几种方法生成数据,包括BN。在第二个实验中,我们考虑了一个因果图模型,该模型表示无障碍障碍及相关因素[5],以通过将其应用于模型上的推理分析来验证合成数据。

4.1 数据集

在本研究中,我们选择了一个来自加拿大统计局2022年加拿大残疾人调查的数据集,该数据集于2024年5月发布[21]。它包括由于长期健康状况而活动受限的54,000名加拿大人的数据。调查涵盖了十种不同的残疾类型(如听力、视力、行动能力和灵活性等)和四个障碍类别,我们专注于与家庭/服务/医疗互动的障碍,包括性别和年龄。
我们对原始调查数据应用了预处理技术,包括数据归一化,以将遇到障碍组合和残疾的频率转换为概率值。我们对名义属性应用了独热编码,这些属性是没有特定顺序的分类属性,如性别或障碍类型。

4.2 数据合成方法

为了合成无障碍障碍的数据,使用了以下方法/库:

  1. Synthetic Data Vault (SDV) 库,具有诸如高斯Copula Synthesize和CTGAN等功能。
    1. DataSynthesizer 具有诸如独立属性模式和相关属性模式等功能。
    1. PyAgrum 可以表示和操作BN模型,并使用模型进行数据合成。
  2. img-0.jpeg
    图1:数据合成工作流程:格式转换预处理,使用各种方法(高斯Copula、CTGAN、BN、相关和独立模型)生成数据,使用性能指标进行评估,并选择最佳的合成数据算法

4.2.1 Synthetic Data Vault (SDV)

SDV [22] 是一个Python库,旨在促进生成反映原始数据集格式和统计特性的合成数据。它支持单表、多表和时间序列数据。SDV 提供了各种模型,包括经典的统计方法(如高斯Copula)和先进的深度学习技术(如CTGAN)。

高斯Copula [23] 通过使用描述变量间依赖关系的统计模型生成合成数据。真实数据使用累积分布函数转换为均匀分布。变量间的关系通过拟合高斯copula来捕获。新数据点通过从高斯copula模型中采样生成。然后通过原始数据的分布逆变换这些样本,以匹配真实数据的规模和形状。
CTGAN合成器利用基于GAN的深度学习技术进行模型训练和合成数据生成 [22]。CTGAN 包括两种协同工作的神经网络。生成器通过捕获真实数据中的模式和关系来创建合成数据。判别器评估给定数据点是真实还是合成的。这两个模型一起在循环中训练,随着时间的推移提高彼此的性能。我们测试了不同数量的训练周期设置(100、300、400、500)。更多的周期通常能提高生成器捕获复杂数据模式的能力,但也可能增加过拟合的风险。批量大小设为20,这指的是在更新模型权重前使用的训练样本数。较小的批量大小(如20)在计算效率和稳定性之间提供了良好的平衡。学习率设为0.0002,这决定了优化器在更新模型参数时的步长。较小的学习率确保对模型参数的调整是渐进的。

4.2.2 DataSynthesizer

DataSynthesizer 在 [24] 中被提出,用于从原始私有数据集中生成合成数据集。这包括两种类型的工作:独立属性模式和相关属性模式。关于差分隐私,我们应用了不同的epsilon值 ( 1 , 5 , 10 ) (1,5,10) (1,5,10)。这个参数确保数据集中个人的隐私。较低的值通过注入更多噪声提供更强的隐私保护,而较高的值产生更准确的数据但隐私保护较弱。
独立属性模式,用于 [24],意味着数据集中的每个特征都是独立生成的。这意味着合成数据是通过单独学习每个特征的边缘分布生成的,而不考虑它们与其他特征的相关性。
作为 [24] 的一部分,相关属性模式通过建模特征间的相关性改进了独立模式。而不是独立学习每个特征的边缘分布,此模型估计特征的联合分布 [24]。该模型使用BN捕获列之间的关系。BN的深度(父节点数量)控制考虑的属性间依赖关系的数量。我们测试了2和3个父节点的数量。算法根据提供的数据自动创建BN,基于结构学习和信息评分。

4.2.3 PyAgrum

为了设计BN,我们利用了PyAgrum库[25]。BN结构明确定义了变量之间的逻辑和统计依赖关系,使用领域知识捕获真实数据依赖关系。一旦定义了BN,
它可以用于生成保留原始数据结构和依赖关系的合成数据集。此外,它允许推断网络以计算给定证据下特定结果的概率。
我们的BN设计结合了专家知识和SEM的结构评估[5]。SEM[26]是一种统计技术,允许对变量之间的复杂关系进行建模,考虑直接和间接影响。其表示人口统计学特征(性别、年龄)的节点是残疾类型节点的父节点。残疾类型直接影响家庭、服务和医疗的互动障碍。这有助于根据残疾类型确定具体的挑战和需求。当前研究仅关注互动障碍以简化我们的网络。
我们采用了一个迭代过程来创建BN结构。首先,基于专家知识定义它。然后,我们反复使用SEM框架确保结构的统计显著性和相关性,确认网络中的所有节点在统计上都很重要并且有效地捕获数据中的依赖关系。一旦结构最终确定,我们使用原始数据集填充条件概率表(CPT)。这些CPT编码给定父节点的每个节点的条件概率。BN建立在贝叶斯定理、联合概率和条件概率的原则之上,使网络能够对变量的观测分布进行建模并生成新的符合观测分布的数据。贝叶斯定理提供了一种机制,用于在获得新证据Y时更新假设X的概率。定理由下式给出:

P ( X ∣ Y ) = P ( Y ∣ X ) ⋅ P ( X ) P ( Y ) P(X \mid Y)=\frac{P(Y \mid X) \cdot P(X)}{P(Y)} P(XY)=P(Y)P(YX)P(X)

其中:

  • P ( X ∣ Y ) P(X \mid Y) P(XY) 是后验概率:事件 X X X 发生的概率,已知 Y Y Y 已经发生。
    • P ( Y ∣ X ) P(Y \mid X) P(YX) 是似然:事件 Y Y Y 发生的概率,已知 X X X 为真。
    • P ( X ) P(X) P(X) 是先验概率:在观察到 Y Y Y 之前对事件 X X X 的初始信念。
    • P ( Y ) P(Y) P(Y) 是边缘概率:事件 Y Y Y 的总概率,汇总所有可能的原因。
      这个定理对于根据观察到的证据更新关于变量状态的信念至关重要。它促进了证据的传播,并支持不确定性下的推理,允许随着新数据的纳入动态更新网络的信念。
      条件概率 P ( Y ∣ X ) P(Y \mid X) P(YX) 表示在另一个事件 X X X 发生的情况下事件 Y Y Y 发生的可能性。这些关系被封装在CPT中,描述了一个变量的存在或不存在如何影响网络中的另一个变量。
      在BN中,一组变量的联合概率被计算为每个变量的条件概率的乘积,条件是其父节点。对于一般的n个变量集合,联合概率计算如下:

P ( X 1 , X 2 , … , X n ) = ∏ i = 1 n P ( X i ∣ Parents ⁡ ( X i ) ) P\left(X_{1}, X_{2}, \ldots, X_{n}\right)=\prod_{i=1}^{n} P\left(X_{i} \mid \operatorname{Parents}\left(X_{i}\right)\right) P(X1,X2,,Xn)=i=1nP(XiParents(Xi))

使用这种概率框架,我们从BN中生成了新的数据。该网络能够生成保留原始数据集中观察到的统计关系的现实数据样本。

5 数据合成实验

本实验旨在确定基于SEM的BN是否在生成最符合案例研究数据集的真实分类合成数据方面足够有效。
实验设计遵循图1所示的步骤。首先,进行预处理以将原始数据转换为适合进一步分析的格式。此步骤包括清理、归一化、名义特征的独热编码以及将序数数据映射到数值的任务。接下来,使用上一节描述的不同合成数据生成技术。生成数据后,我们对其进行评估以确定合成数据与真实数据的接近程度。最后,根据评估结果选择最佳的数据生成算法。
为了评估合成数据的质量,我们使用了几项关键指标来比较原始数据集和合成数据集的分布:

  • 卡方检验和 P P P 值:此统计检验测量类别间预期和观察计数平方差之和。更高的值表示合成数据与原始数据之间的差异更大。
    • KL 散度 [27]:KL 散度量化一个概率分布与另一个概率分布的差异程度。接近零的KL值表示合成数据接近原始数据分布,而较高的值表示更大的差异。定义如下:
      K L = ∑ x P ( x ) log ⁡ ( p ( x ) q ( x ) ) K L=\sum_{x} P(x) \log \left(\frac{p(x)}{q(x)}\right) KL=xP(x)log(q(x)p(x))

其中 p p p q q q 是两个分布

  • TVD 是一种统计度量,用于量化两个分布之间的差异。TVD 比较两个分布之间概率的绝对差异 [28]。接近一的TVD值表示合成数据接近原始数据分布。
    T V D = 1 − 1 2 ∑ ω ∈ Ω ∣ R ω − S ω ∣ T V D=1-\frac{1}{2} \sum_{\omega \in \Omega}\left|R_{\omega}-S_{\omega}\right| TVD=121ωΩRωSω

其中, ω \omega ω 代表列 Ω \Omega Ω 中的所有可能类别; R ω R_{\omega} Rω S ω S_{\omega} Sω R R R S S S 数据集中每个类别的概率。

表1:合成数据生成方法的比较。显示Chi-square统计量分布之间存在统计差异的值(P值 ≥ 0.05)以粗体突出显示。基于评估指标,方法被列为最佳技术。没有统计意义的方法不列入排名

模式参数KL 中位数卡方TVD排名
独立属性模式epsilon =10.00105.19590.9226-
epsilon =100.00035.52760.9746-
epsilon =50.00035.52760.971-
贝叶斯网络-3.20E-062.25640.99791
CTGANepochs =1000.00794.21570.90579
epochs =3000.00571.88220.91958
epochs =4000.00577.96480.92366
epochs =5000.00715.04100.902510
相关属性模式:2个父节点epsilon =100.000813.68980.9611-
epsilon =10.00526.70580.898611
epsilon =50.00133.65000.95195
相关属性模式:3个父节点epsilon =100.00046.00600.96843
epsilon =10.00268.51000.92087
epsilon =50.00044.58790.95984
高斯Copula-0.00027.13740.9762

在这种情况下,主导指标是TVD,用于做出最终决定。所有其他指标都是辅助性的。我们可以根据卡方检验确定我们的数据分布是否在统计上显著相似。它有助于排除至少有一列未达到统计显著性的数据。如果几个方法的TVD结果相似,KL可以帮助我们决定最佳方法。

结果总结在表1中,该表展示了每个方法的中位卡方统计量、中位KL散度值、TVD和排名。因此,基于此,我们可以决定每种合成数据生成方法的变量分布相似性。

表2:CTGAN在不同训练周期数下的性能指标

epochsKL 中位数卡方TVD
100 0.0102 ± 0.0029 0.0102 \pm 0.0029 0.0102±0.0029 6.3574 ± 2.5607 6.3574 \pm 2.5607 6.3574±2.5607 0.9015 ± 0.0097 0.9015 \pm 0.0097 0.9015±0.0097
300 0.0070 ± 0.0011 0.0070 \pm 0.0011 0.0070±0.0011 3.2457 ± 1.3874 3.2457 \pm 1.3874 3.2457±1.3874 0.9178 ± 0.0037 0.9178 \pm 0.0037 0.9178±0.0037
400 0.0059 ± 0.0008 0.0059 \pm 0.0008 0.0059±0.0008 6.1825 ± 1.8659 6.1825 \pm 1.8659 6.1825±1.8659 0.9222 ± 0.0058 0.9222 \pm 0.0058 0.9222±0.0058
500 0.0066 ± 0.0011 0.0066 \pm 0.0011 0.0066±0.0011 5.2561 ± 0.3822 5.2561 \pm 0.3822 5.2561±0.3822 0.9081 ± 0.0081 0.9081 \pm 0.0081 0.9081±0.0081
img-1.jpeg

图2:BN生成的合成数据与真实数据之间残疾频率的直方图分布比较。真实数据以蓝色突出显示,合成数据以黄色突出显示

我们的BN模型显示出最高的TVD为0.9979 ,表明其分布与原始数据高度一致。这表明BN生成的数据在统计上显著且与观察数据高度相似。高斯Copula模型排名第二,TVD为97.6,显示出与原始数据分布的强大匹配。

对于独立属性模式,TVD值范围在0.92至0.97之间,伴随低 p − p- p值。尽管分布捕获了一些相似性,但它们在至少一个属性上与原始数据显著不同。这意味着独立生成属性会在合成数据中引入差异,导致模型无法通过统计验证。尽管调整了模型参数epsilon,这略微增加了TVD,但 p − p- p值仍然不令人满意。
CTGAN表现出中等性能。这些方法的TVD值范围在0.90到0.92之间。较高的epoch数(300,400)导致TVD值改善,表明与原始数据分布的更好匹配。然而,在第500 epoch时性能略有下降,表明可能存在过拟合。这些方法的KL散度值范围在0.005到0.01之间,表明虽然这些方法有效,但与BN等方法相比,分布之间的差异稍大。
由于CTGAN模型具有随机学习过程,我们必须多次运行实验以考虑变异性。表2展示了CTGAN的性能指标。每个值表示从多次实验运行中得出的平均值±标准偏差。这种方法确保结果考虑了变异性,并提供了合成器性能的更稳健估计。总体而言,CTGAN在我们的主要指标(TVD和KL)上表现出稳定性,标准偏差值较小。
对于相关属性模式,TVD值在89到96之间,相关方法通常产生与原始数据更好的匹配。将相关模式中的父节点数量增加到三个通常会提高性能,表明添加更多父节点可以提高模型生成更接近原始数据集的合成数据的能力。在独立模式和相关模式之间切换强调了TVD增加的好处。
为了可视化生成的分布,我们使用了直方图绘制。图2展示了由BN生成的合成数据和真实数据的残疾类型分布。这种方法允许我们直观地评估合成数据在多大程度上复制真实数据,捕捉分布中的关键模式和峰值。
一个好的合成数据集不仅应该反映单个变量的边际分布,还应该保留它们之间的结构关系。在此背景下,我们关注熵和互信息等指标,以最终评估从原始数据和最佳合成数据集中创建的因果图。熵评估单个变量的变异性或不确定性,而互信息(MI)捕获变量对之间的依赖性或共享信息。

熵是用来衡量单个变量内部的不确定性和变异性的一种指标。在评估合成数据时,比较合成数据和真实数据集之间的熵值有助于判断合成版本是否准确捕捉了每个变量的边际分布。在表3中,所有节点的熵值几乎相同。例如,“性别”在合成数据中的熵值为0.99237,而在真实数据中为0.99227。同样,其他变量也有接近的匹配。这些结果表明合成数据很好地保留了每个特征的分布,使合成数据成为下游分析的有力候选者。

表3:各节点合成数据与真实数据的熵值对比

节点合成数据熵真实数据熵
性别0.992370.99227
年龄1.310741.31236
医疗互动1.954011.95360
残疾3.438913.43911
服务互动1.959361.95632
家庭互动1.952821.95211

MI 测量变量对之间的依赖性或共享信息。它使它成为评估合成数据中关系结构保留情况的有用指标。通过比较合成数据和真实数据中节点对的 MI 值,我们可以评估合成数据是否维持相同的变量间关联。在这种情况下,表4中显示的值表现出强烈的一致性和微小的差异。这些结果表明合成数据保留了原始数据集的主要依赖结构。然而,对于某些节点关系,如性别→年龄,MI 非常小,这可能是由于次优的图结构。

表4:合成数据和真实数据中节点对的互信息对比。Source 列代表连接开始的节点。Target 列代表连接结束的节点。

SourceTarget合成数据MI真实数据MI
性别年龄0.0018800.001608
年龄残疾0.0195860.019500
残疾家庭互动0.0706760.070139
残疾服务互动0.0621880.060757
残疾医疗互动0.0575080.058323

6 合成数据在无障碍障碍因果建模中的应用示例

这部分分析探讨了因果图在决策系统的一部分中的使用,该系统表示无障碍障碍与其原因之间的因果关系。我们使用BN模型、合成隐私数据和原始数据集。使用这些数据生成BN节点的新CPT,我们使用合成数据对模型进行推理。
设计的BN捕获了人口统计因素、残疾类型和残疾人互动障碍之间的复杂关系。BN需要CPT表来定义每个节点的概率分布。我们基于原始数据创建了BN的结构,包括性别、年龄、残疾类型和互动障碍类型之间的关系。
在使用人类专家知识设计BN并通过SEM评估后,表示人口统计学特征(性别、年龄)的节点是残疾类型节点的父节点。残疾类型直接影响家庭、服务和医疗的互动障碍。这有助于根据残疾类型识别具体的挑战和需求。当前研究仅关注互动障碍以简化我们的网络。因此,对家庭、服务和医疗的互动建模提供了一个全面的视角,说明人们可能多久面临这些障碍。这样的模型有助于识别哪些群体最容易经历障碍。
在定义了结构之后,我们使用合成数据填充CPT,以确保隐私和保密性,同时保留原始数据集的统计特性。
img-2.jpeg

图3:用于识别互动障碍风险的BN结构。

下面展示如何使用BN根据先验和当前观察预测或推断潜在情景。BN预测和诊断有两种主要方式[29]:

  • 预测推理:根据一些观察到的证据预测特定结果的可能性。
    • 诊断推理:通过从观察到的效果追溯到潜在原因进行诊断。
      考虑两个推理场景。
      场景1 考虑一个患有发育障碍的人(图4)。在预测情况下,BN估计该个体最有可能脆弱的年龄段的概率:

P (  Age  ∣  Disability  =  Developmental  ) P(\text { Age } \mid \text { Disability }=\text { Developmental }) P( Age  Disability = Developmental )

此信息可以帮助例如高效分配资源,如根据预测的脆弱性为特定年龄段提供重点支持计划。这次推理的结果表明年龄分布发生了变化。在证据出现之前,年龄分布偏向成人组(图3)。然而,考虑到发育障碍的证据,我们观察到年龄分布的变化。因此,更脆弱的群体是老年人。如图4所示,65岁及以上年龄段的概率显著增加到37%相较于26%。

场景2 使用诊断推理,BN评估互动障碍的频率,例如

P (  InteractionFamily  ∣  Disability  =  Developmental  ) P(\text { InteractionFamily } \mid \text { Disability }=\text { Developmental }) P( InteractionFamily  Disability = Developmental )

这指的是发育障碍个体在家庭互动中遇到挑战的可能性。通过识别互动中的潜在问题,诊断考虑可以引导发展专门的项目,如家庭成员培训。让我们估算发育障碍者遇到“互动”障碍的频率。家庭互动的频率趋势发生变化:在应用证据后,我们观察到“经常”和“总是”类别的频率增加。他们不太可能不面临互动障碍。这表明发育障碍在成年人和最老年龄组中更为常见,并与更频繁的家庭接触相关。

7 结论

本研究为决策系统中的因果推断提供了坚实的基础,使政策制定者能够做出支持社会可持续发展的数据驱动决策。在这种背景下使用合成数据确保了隐私保护,同时使制定有效的政策和计划成为可能,以增强无障碍性并支持边缘化社区。我们的结果表明,包含专家验证和结构设计的BN等概率模型生成的数据反映了变量之间的依赖关系。
我们评估了几种合成数据生成方法,重点是概率因果模型,并将它们与高斯copula以及生成模型如GAN进行了比较。我们对原始调查数据应用了预处理技术,包括归一化和编码,随后实施了基于SEM的BN和其他方法如高斯Copula和CTGAN等。生成的合成数据集使用统计指标进行了评估,包括卡方检验、KL散度和TVD。我们的评估突出了BN模型是最有效的生成方法。它达到了最高的TVD 0.9979 ,表明与原始数据一致
img-3.jpeg

图4:BN表示发育障碍证据以识别交互障碍风险最大的群体。
数据。高斯Copula排名第二,而CTGAN表现出中等性能。视觉和统计分析确认了基于SEM的BN复制原始数据集关键分布特征的能力。这一结果确认了捕捉联合概率分布和条件依赖的优势。
为了验证合成数据,我们在模型上进行了推理分析,就像在真实数据上使用BN一样。合成数据遵循类似的分布,同时通过显著减少记录的独特性并增加整体数据集体积,相对于原始数据集保留了保密性。
我们展示了BN在三种潜在场景中的应用,利用人口统计因素、残疾类型和残疾人面临的交互障碍之间的因果关系。BN在预测和诊断目的方面均表现出色,使我们能够了解最脆弱的人口统计群体和遇到特定障碍的可能性。
将合成数据包含在CPT中确保了保密性,同时保留了原始数据集的统计特征。例如,鉴于小样本量存在去匿名化的风险,因为个别反应可以追溯到参与者。合成数据解决了这个问题,使我们能够在分析的同时保护隐私并保护敏感信息。
总体而言,研究表明因果图模型如BN不仅可以捕捉变量的联合分布以进行因果推断,还可以作为生成可用于进一步模型改进、其他模型训练和分析的合成数据的工具,无需披露真实数据即可。

致谢

该项目部分由加拿大自然科学与工程研究委员会(NSERC)资助。

补充数据

本研究创建的代码可通过提供的GitHub存储库链接访问:https://github.com/ExcellentDarkTea/Synthetic-Categorical-Data

参考文献

[1] S. I. Nikolenko,《深度学习的合成数据》,Springer,第174卷,2021年
[2] 美国医学研究所(US)区域健康数据网络委员会;Donaldson MS, Lohr KN 编辑,《信息时代的健康数据:使用、披露和隐私》。华盛顿(DC):美国国家科学院出版社;1994。4,个人数据的保密性和隐私。可从:https://www.ncbi.nlm.nih.gov/books/NBK236546/
[3] T.E. Raghunathan, 合成数据, 年度统计学及其应用评论,第8卷,第1期,第129-140页,2021年。
[4] 加拿大政府。关于无障碍加拿大的更多信息。https://www.canada.ca/en/employment-socialdevelopment/programs/ accessible-canada.html.
[5] M. Zakir, G. Wolbring, S. Yanushkevich, 一种因果方法调查残疾人无障碍体验,IEEE第六届国际智能计算与数据科学会议论文集,2024年10月23日。
[6] S. N. Yanushkevich, 合成生物特征识别:综述,IEEE国际神经网络联合会议论文集,加拿大,第676-683页,2006年。
[7] I. Joshi, M. Grimmer, C. Rathgeb, C. Busch, F. Bremond, A. Dantcheva, 人类分析中的合成数据:综述,IEEE模式分析与机器智能汇刊,第46卷,第7期,第4957-4976页,2024年。
[8] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, Bing, D. Warde-Farley, S. Ozair, A. Courville, Y. Bengio, 生成对抗网络,神经信息处理系统国际会议论文集-NIPS,第2672-2680页,2014年。
[9] L. Xu, M. Skoularidou, A. Cuesta-Infante, K. Veeramachaneni, 使用条件GAN建模表格数据,神经信息处理系统进展,第32卷,2019年。
[10] Z. Zhao, A. Kunar, R. Birke, LY. Chen, CTAB-GAN:有效的表格数据合成,亚洲机器学习会议,第97-112页,2021年。
[11] R. Sauber-Cole, T.M. Khoshgoftaar, 使用生成对抗网络缓解表格数据中的类别不平衡:综述,大数据期刊,第9卷,第1期,第98页,2022年。
[12] I. Nicholas, F. Garcia, A. Sönnerborg, 等
使用生成对抗网络生成捕获类别不平衡分布的合成临床数据:使用抗逆转录病毒疗法治疗HIV的示例,生物医学信息学杂志,第144卷,第104436页,2023年。
[13] J. Pearl, 七种因果推理工具及其对机器学习的反思,ACM通讯,第62卷,第3期,第54-60页,2019年。
[14] E. Bao, X. Xiao, J. Zhao, D. Zhang, B. Ding, 带有差分隐私的合成数据生成通过贝叶斯网络,隐私与保密性期刊,第11卷,第3期,2021年。
[15] D. Kaur, M. Sobiesk, S. Patil, J. Liu, P. Bhagat, A. Gupta, N. Markuzon, 使用贝叶斯网络生成合成健康数据的应用,美国医学信息协会期刊,第28卷,第4期,第801-811页,2021年。
[16] R. Luo, S. Liai, X. Yingce, Q. Tao, Z. Sheng, P. Hoifung, L. Tie-Yan, BioGPT:用于生物医学文本生成和挖掘的生成预训练变换器,生物信息学简报,第23卷,第6期,p.bbac409,2022年。
[17] N. Park, M, Mohammadi, K. Gorde, S. Jajodia, H. Park, Y. Kim, 基于生成对抗网络的数据合成。arXiv预印本arXiv:1806.03384,2018年。
[18] Z. Wan, Y. Zhang 和 H. He, 基于变分自编码器的合成数据生成方法用于不平衡学习,2017 IEEE计算智能研讨会系列(SSCI),第1-7页,2017年。
[19] P.A. Apellániz, J. Parras, 和 S. Zazo, 具有VAE-GMM集成的改进表格数据生成器,arXiv预印本:2404.08434,2024年。
[20] C. Hassan, R. Salomone, K. Mengersen, 深度生成模型、合成表格数据和差分隐私:概述与综合,ArXiv预印本:2307.15424,2023年。
[21] 加拿大政府。15岁及以上残疾人无障碍障碍,按残疾类型、年龄组和性别划分。加拿大统计局。https://www150.statcan.gc.ca/t1/tbl1/en/tv.action?pid=1310089901。
[22] N. Patki, R. Wedge 和 K. Veeramachaneni, 合成数据金库,IEEE 数据科学与高级分析国际会议 (DSAA),第399-410页,2016年。
[23] N. Patki, 合成数据金库:关系数据库的生成建模,麻省理工学院博士学位论文,2016年。
[24] H. Ping, J. Stoyanovich, 和 B. Howe, 数据合成器:隐私保护的合成数据集,第29届科学与统计数据库管理国际会议论文集,第1-5页,2017年。
[25] G. Ducamp, C. Gonzales, P. Wuillemin, aGrUM/pyAgrum:用于概率图模型的建模和算法的Python工具箱,第10届国际概率图模型会议论文集,第138卷,第609-612页,2020年。
[26] A.A. Igolkina 和 G. Meshcheryakov, Semopy:一个用于结构方程建模的Python包。结构方程建模,多学科期刊,第27卷,第6期,第952-963页,2020年。
[27] D.I. Belov, R.D. Armstrong, Kullback-Leibler散度的分布及其应用,英国数学与统计心理学杂志,第64卷,第2期,第291-309页,2011年。
[28] S. Verdu, 总变差距离与相对信息分布,2014年信息论与应用研讨会 (ITA),第1-3页,2014年。
[29] N. Fenton 和 M. Neil, 使用贝叶斯网络进行风险评估与决策分析,第2版,CRC Press,Taylor & Francis Group,佛罗里达州博卡拉顿,2019年。

参考论文:https://arxiv.org/pdf/2504.11547

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Paper易论

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值