《Is dataset condensation a silver bullet for healthcare data sharing?》

最新推荐文章于 2024-10-04 20:30:00 发布

volcanical

最新推荐文章于 2024-10-04 20:30:00 发布

阅读量326

点赞数 3

分类专栏：联邦学习文章标签： python 人工智能

本文链接：https://blog.csdn.net/huoshanshaohui/article/details/134949986

版权

联邦学习专栏收录该内容

18 篇文章 3 订阅

订阅专栏

本文探讨了在医疗数据集中使用数据浓缩技术（DataCondensation，DM），通过训练不同的模型参数来达到相近的预测效果，同时强调了随机性和隐私保护的重要性。优化目标是使原始数据和生成数据上的模型性能相似。

摘要由CSDN通过智能技术生成

一篇数据浓缩在医疗数据集应用中的论文。
其实就是在医疗数据集上使用了data condensation的方法，这里使用了DM的方式，并且新增了浓缩时候使用不同的网络。

1. 方法

数据浓缩DC的目的是：
$\mathbb{E}_{\mathbf{x} \sim P_{\mathcal{D}}}\left[\mathrm{L}\left(\varphi_{\boldsymbol{\theta}^{\mathcal{O}}}(\mathbf{x}), y\right)\right] \simeq \mathbb{E}_{\mathbf{x} \sim P_{\mathcal{D}}}\left[\mathrm{L}\left(\varphi_{\boldsymbol{\theta}^{\mathcal{c}}}(\mathbf{x}), y\right)\right]$
对于数据x，在原始数据 $\mathcal{O}$ 和生成数据 $\mathcal{c}$ 上训练得到的模型要有接近的模型效果。
作者用DM来实现数据浓缩，并且选择随机的模型，随机的参数（作者说在DM中，只选择了一个模型的而不同参数训练，这里使用不同模型不同参数更能保护隐私）
$\min _{\mathcal{C}} \mathbb{E}_{\phi_{\boldsymbol{\mu}_k}^k \sim \Phi, \boldsymbol{\mu}_k \sim P_{\boldsymbol{\mu}_k}}\left\|\frac{1}{|\mathcal{O}|} \sum_{i=1}^{|\mathcal{O}|} \phi_{\boldsymbol{\mu}_k}^k\left(\mathbf{x}_i\right)-\frac{1}{|\mathcal{C}|} \sum_{j=1}^{|\mathcal{C}|} \phi_{\boldsymbol{\mu}_k}^k\left(\mathbf{c}_j\right)\right\|^2$