神经网络不会直接处理原始图像、文本等。训练语料库中的样本通过数学转换成多维数组,如矩阵。尽管存在这些转换,但通常可以从神经网络中的输出中识别出敏感信息。最常见的机器学习逆向工程为成员推理攻击,攻击者使用单个数据点或多个数据点来确定它是否属于训练目标模型的语料库。事实证明,从数据集中删除敏感信息并不意味着无法重新推断。
一个更复杂的数据提取方法使用生成对抗网络。由两部分人工智能系统组成,分别是生成样本的生成器和区分生成样本和真实样本的鉴别器组成、他们被训练生成与原始语料库中的样本非常相似的样本,而无需接触原始样本,并通过与有辨别力的深层神经网络交互来学习数据的分布