论文学习 --- RL Breaking the Barrier Enhanced Utility and Robustness in Smoothed DRL Agents

K-ei-th

已于 2024-06-28 15:15:36 修改

阅读量588

点赞数 15

文章标签：学习

于 2024-06-28 15:15:27 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Keitheasun/article/details/140044043

版权

前言

个人拙见，如果我的理解有问题欢迎讨论 (●′ω`●)
文章出处：https://openreview.net/forum?id=WJ5fJhwvCl

研究背景和意义

深度强化学习（DRL）在各种游戏和任务中表现出色，但对抗性扰动（adversarial perturbations）会显著降低其性能。为了提升DRL代理的鲁棒性（robustness），本文提出了S-DQN和S-PPO两种新算法，通过在训练和测试阶段引入随机平滑（Randomized Smoothing, RS）技术，有效地增强了模型的鲁棒性和干净奖励（clean reward）。

原理部分

去噪器原理

去噪器（denoiser）是用来处理噪声状态的一种模型，其目的是将加噪后的状态恢复为尽可能接近原始状态的形式。去噪器通过优化重建损失（Reconstruction Loss），学习如何去除高斯噪声，使得输出状态与真实状态之间的误差最小。

重建损失：衡量去噪后的状态 ( S~) 和原始状态 ( S) 之间的均方误差（MSE）：

其中D是去噪器，其输出就是去噪之后的状态

最低0.47元/天解锁文章

关注

15
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
论文学习 --- RL Breaking the Barrier Enhanced Utility and Robustness in Smoothed DRL Agents

个人拙见，如果我的理解有问题欢迎讨论 (●′ω`●)文章出处：https://openreview.net/forum?
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。