1. 定义
4.4 Q 学习算法 4.5 同策略 (On-policy) 与异策略 (Off-policy)_哔哩哔哩_bilibili
台大教授 李宏毅 强化学习off-policy_哔哩哔哩_bilibili
2. 异策略(off-policy)
ReplayBuffer内可以存放 "不同策略" 收集得到的数据用于更新网络
3. 同策略(on-policy)
ReplayBuffer内可以存放 "相同策略" 收集得到的数据用于更新网络
4.4 Q 学习算法 4.5 同策略 (On-policy) 与异策略 (Off-policy)_哔哩哔哩_bilibili
台大教授 李宏毅 强化学习off-policy_哔哩哔哩_bilibili
ReplayBuffer内可以存放 "不同策略" 收集得到的数据用于更新网络
ReplayBuffer内可以存放 "相同策略" 收集得到的数据用于更新网络