- 博客(4)
- 收藏
- 关注
原创 Conservative Q-Learning for Offline Reinforcement Learning
Conservative Q-Learning for Offline Reinforcement Learning要解决的问题离线强化学习中数据集和学习策略之间的分布偏移导致值高估问题,对大型静态数据集学习效率低问题。由于π被训练为最大化q值,它可能会偏向具有错误的高q值的out- distribution (OOD)动作。在标准的RL中,这种错误可以通过在环境中尝试一个动作并观察它的实际值来纠正。然而,由于无法与环境交互,在离线RL中处理OOD动作的q值具有挑战性。中心思想:Conser
2021-01-28 15:55:14 1902 1
原创 Dueling DQN想法
Dueling DQN解决问题:Q(s,a)表示了状态s下动作a的价值。因为有状态s这个条件,Q (s,a)并不能完全代表状态a的价值,因为有时候在某种state,无论做什么动作,对下一个state都没有多大的影响,而在一个好的state,无论做什么action,都能得到很高的value;在一个很差的state,无论做什么action,都只会得到一个很低的value。因此提出了Dueling DQN结构,愿望是衡量状态s的价值V (s)和动作a的价值A(s,a)。再讲状态的价值V (s)和动作的价
2021-01-28 14:52:23 242
原创 RL Unplugged: Benchmarks for Offline Reinforcement Learning
RL Unplugged: Benchmarks for Offline Reinforcement Learning1.引言部分:主要讲强化学习的发展和应用。介绍离线学习的研究意义:(1)利用已有的数据集对RL agent进行预训练。(2)从经验角度分析根据RL算法利用固定交互数据集的能力来评估它们。(3)桥接在RL的学术兴趣和实际应用之间的差距。介绍离线学习的存在问题:缺乏通用的评价标准(evaluation protocol)以及不同的数据集让算法的相互比较变的困难。现
2021-01-26 11:40:09 403
原创 菜鸟学习大数据笔记
大数据菜鸟学习的笔记右键单击计算机,选择管理在找VM NAT和DHCP时把鼠标放上去,然后压V键。注意:Type+命令时(一般这里说的内部命令),只要打开命令行后面有builtin则查询它怎么用直接用help+命令(学习内部命令)就可以,取外部命令时一般用$PATH并且学习外部命令用man。以下为总结图片: 这里home目录的东西在sda3目录中也就是在根/目录中,而boot可以看见在sda...
2019-08-08 11:29:15 180
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人