An Adaptive and Fast Convergent Approach toDifferentially Private Deep Learning

motivation:第一DP会降低模型的性能,第二个就是梯度对训练数据具有不均匀敏感性。因为敏感性的不均衡会导致在隐私保护中对于敏感度低的梯度添加大噪声,敏感度高的梯度添加小噪声,这将会直接影响模型的好坏。所以文章提出了一种自适应的,快速收敛的一种差分隐私方法。

methods:主要方法有两个,一个是通过自适应学习速率提高收敛速度来降低隐私损失,另一个是通过引入自适应噪声来减轻差分隐私对模型精度的负面影响。

上面这个图是SGD算法,他的学习率是固定的所以对于模型收敛来说不够好,下面的这个是RMSPROP优化算法,E[g2]t是累计梯度的平方的均值,gamma是衰减系数,gt是原始梯度,eta是学习率,ADADP算法就是把原始梯度gt加上高斯噪声,用分母去自适应的调整学习率。 然后文章对于自适应噪声提出了一个定理,就是右边这个图,当满足红色框条件情况下,机制M和M’满足(epsilon,delta)-DP。后续也证明了自适应噪声也是满足差分隐私的,其中Si为f '(·)的第i维的l2灵敏度。

然后文章对于自适应噪声提出了一个定理,就是右边这个图,当满足红色框条件情况下,机制M和M’满足(epsilon,delta)-DP。后续也证明了自适应噪声也是满足差分隐私的,其中Si为f '(·)的第i维的l2灵敏度。

从之前的优化算法可以知道,通过累计梯度平方的平均可以预估当前的梯度,所以文章用E′[g2]代表了先验知识。根据先验知识,可以计算出Si,就是红框部分,代表第i维的l2敏感度,然后根据公式5对原始梯度进行裁剪得到裁剪后的梯度。

 

右边是他的整个的一个ADADP算法,因为在第一次迭代中,算法把先验知识设置为0,这个值不能用于剪辑梯度,将导致si = 0。所以又设置了一个局部裁剪阈值G,当E′[g2]>G才进行局部裁剪。 当大于G时,利用先验知识和参数贝塔计算i维的敏感度Si,然后进行裁剪,根据定理一的条件,可以计算出对应的sigma,之后进行自适应的加噪声,如果小于G的话就是进行全局的裁剪,然后加噪,然后更新自适应的学习率和噪声,最后更新累计梯度均值和先验知识,根据E[g2]t计算出∆ˆθt来控制学习率,最后进行梯度下降。 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
近年来,半监督深度面部表情识别成为了人们关注的热点问题之一。在这个领域,研究人员一直致力于利用少量有标签的数据和大量无标签的数据来提高面部表情识别的准确性和鲁棒性。Adaptive是一种有效的半监督学习方法,它能够自适应地利用标签和无标签数据,使得深度学习模型在应用于面部表情识别时更加有效。 半监督学习是一种机器学习方法,利用少量有标签的数据和大量无标签的数据来训练模型。在面部表情识别中,往往很难获取大量有标签的数据,而无标签数据却很容易获取,因此半监督学习成为了一种有吸引力的解决方案。通过利用Adaptive方法,研究人员可以更好地利用无标签数据,提高模型的泛化能力和鲁棒性,从而提升面部表情识别的准确性。 Adaptive方法还可以帮助模型在数据分布变化时自适应地调整,使得模型更具灵活性和稳健性。在面部表情识别任务中,由于不同环境和条件下的面部表情具有差异性,Adaptive方法能够使模型更好地适应这种差异,提高识别的鲁棒性。 总之,半监督深度面部表情识别与Adaptive方法的结合,有望提高面部表情识别的准确性和鲁棒性,为人们提供更加高效和可靠的面部表情识别技术。相信随着更多研究和实践的开展,半监督深度面部表情识别将迎来更加广阔的发展前景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值