“用户识别模型”也就是训练一个通过语音,或人脸,或指纹等个人信息进行身份识别的模型,也是一个选择“接受”或”拒绝”的二元决策问题。以基于embedding的分类为例,一个样本只有其embedding与reference embedding足够接近,才能通过模型验证(被模型接受),换句话说就是“身份验证成功”。
联邦学习训练“用户识别模型”存在两个挑战:
- 每个参与方只有一个用户的信息作为训练数据,也就是说所有数据都属于同一个类标签(用户自身)
- 采用embeddind vector表征用户身份信息,由于涉及用户隐私,每个参与方的embeddind vector都不能与他人进行共享。
损失函数的一般定义:
w y ∈ R n d w_y∈R^{n_d} wy∈Rnd是类y的embedding, g θ : X → R n d g_θ: X → R^{n_d} gθ:X→Rnd是一个将输入x由X维空间映射至 n d n_d nd维的embedding的网络,该embedding用 g θ ( x ) g_θ(x) gθ<